Найти в Дзене

ИИ показал свою ограниченность в вопросах женского здоровья

Современные крупные языковые модели ИИ демонстрируют серьезные проблемы с точностью диагностики и рекомендациями в сфере женского здоровья, показало исследование ученых из разных стран мира. Специалисты проанализировали работу тринадцати популярных моделей, созданных ведущими технологическими компаниями, включая OpenAI, Google, Anthropic, Mistral AI и xAI. Они задали искусственному интеллекту ряд сложных вопросов из различных сфер медицины, включая экстренную помощь, акушерство-гинекологию и неврологию. Эти запросы были подготовлены специалистами в области здравоохранения из университетов и клиник США и Европы. Эксперты проверяли точность полученных ответов и сформировали специальный набор тестов (так называемый бенчмарк), включив туда 96 наиболее трудных и важных вопросов. Оказалось, что средняя доля некорректных ответов составляет примерно 60 процентов среди всех проверенных моделей. Так, самая успешная модель GPT-5 допускала ошибки почти в половине случаев (47%), тогда как наименее

Современные крупные языковые модели ИИ демонстрируют серьезные проблемы с точностью диагностики и рекомендациями в сфере женского здоровья, показало исследование ученых из разных стран мира.

Специалисты проанализировали работу тринадцати популярных моделей, созданных ведущими технологическими компаниями, включая OpenAI, Google, Anthropic, Mistral AI и xAI. Они задали искусственному интеллекту ряд сложных вопросов из различных сфер медицины, включая экстренную помощь, акушерство-гинекологию и неврологию. Эти запросы были подготовлены специалистами в области здравоохранения из университетов и клиник США и Европы.

Эксперты проверяли точность полученных ответов и сформировали специальный набор тестов (так называемый бенчмарк), включив туда 96 наиболее трудных и важных вопросов. Оказалось, что средняя доля некорректных ответов составляет примерно 60 процентов среди всех проверенных моделей. Так, самая успешная модель GPT-5 допускала ошибки почти в половине случаев (47%), тогда как наименее удачная — Ministral 8B — оказалась неверна в трех четвертях ситуаций (73%).

Руководитель исследования Виктория-Элизабет Грубер отметила, что именно растущую популярность обращения женщин к ИИ-помощникам и подтолкнула команду провести проверку качества рекомендаций. Однако полученные результаты оказались неожиданными даже для самих авторов проекта. По словам Грубера, количество неправильных советов оказалось гораздо большим, чем предполагалось изначально. Причина, считают ученые, кроется в обучении моделей на недостоверных источниках информации, часто содержащих ошибки и устаревшие сведения.

Один из участников эксперимента, профессор Монреальского университета Кара Танненбаум подчеркнула важность обновления медицинского контента на специализированных сайтах и форумах, чтобы повысить качество данных, используемых для тренировки ИИ-моделей. Эксперт уверена, что подобные меры позволят сделать рекомендации машин более надежными и полезными для пользователей.

Однако другие специалисты высказались критически относительно интерпретации результатов. Например, Джонатан Х. Чен из Стэнфорда подчеркнул, что представленная статистика не отражает реальную картину обращений пациентов к врачам и консультациям. Ученый отметил, что многие случаи неудачи были связаны с жесткими условиями тестирования, когда правильный диагноз считался ошибочным лишь потому, что модель не учла маловероятные, но возможные осложнения заболевания.

При этом авторы подчеркнули, что задача исследования заключалась вовсе не в том, чтобы показать несостоятельность современных технологий, а скорее выявить объективные ограничения существующих алгоритмов. Их выводы указывают на необходимость осторожного подхода к использованию ИИ-технологий в медицине, поскольку даже небольшие погрешности могут привести к серьезным последствиям для здоровья пациента.

Наконец, представители компании OpenAI подтвердили позицию разработчиков ChatGPT, согласно которой искусственный интеллект является помощником врача, а не заменой специалиста. Пользователям рекомендовано обращаться за профессиональной консультацией исключительно к дипломированным медицинским работникам, несмотря на полезные советы, которые могут предложить современные чат-боты.