Современные крупные языковые модели ИИ демонстрируют серьезные проблемы с точностью диагностики и рекомендациями в сфере женского здоровья, показало исследование ученых из разных стран мира. Специалисты проанализировали работу тринадцати популярных моделей, созданных ведущими технологическими компаниями, включая OpenAI, Google, Anthropic, Mistral AI и xAI. Они задали искусственному интеллекту ряд сложных вопросов из различных сфер медицины, включая экстренную помощь, акушерство-гинекологию и неврологию. Эти запросы были подготовлены специалистами в области здравоохранения из университетов и клиник США и Европы. Эксперты проверяли точность полученных ответов и сформировали специальный набор тестов (так называемый бенчмарк), включив туда 96 наиболее трудных и важных вопросов. Оказалось, что средняя доля некорректных ответов составляет примерно 60 процентов среди всех проверенных моделей. Так, самая успешная модель GPT-5 допускала ошибки почти в половине случаев (47%), тогда как наименее
ИИ показал свою ограниченность в вопросах женского здоровья
7 января7 янв
2 мин