Чат-боты ставят неверный диагноз в 8 случаях из 10, выяснили учёные

14 апреля14 апр

373

1 мин

Популярные чат-боты не пригодны для замены консультации врача — более чем в 80 % случаев они ставят неверный диагноз при ограниченном наборе информации. К такому выводу пришли авторы исследования, сообщило Financial Times. В ходе эксперимента специалисты использовали 29 описаний клинических случаев из справочной медицинской литературы. Моделям поэтапно передавались данные, включая историю болезни, результаты осмотров и лабораторных анализов. Чат-ботам задавались вопросы на тему диагностики заболеваний, после чего измерялась точность и полнота ответов. В выборку проверяемых ИИ-систем вошли два десятка популярных моделей, в том числе разработки OpenAI, Anthropic, Google, xAI и DeepSeek. При передаче ограниченной информации о симптомах большие языковые модели испытывали трудности с выбором возможных диагнозов и чаще всего сводили всё к единственному варианту, на который нельзя полагаться в дальнейшем лечении. Когда входные данные были достаточно подробными, проблемы с постановкой точного

В ходе эксперимента специалисты использовали 29 описаний клинических случаев из справочной медицинской литературы. Моделям поэтапно передавались данные, включая историю болезни, результаты осмотров и лабораторных анализов. Чат-ботам задавались вопросы на тему диагностики заболеваний, после чего измерялась точность и полнота ответов.

В выборку проверяемых ИИ-систем вошли два десятка популярных моделей, в том числе разработки OpenAI, Anthropic, Google, xAI и DeepSeek. При передаче ограниченной информации о симптомах большие языковые модели испытывали трудности с выбором возможных диагнозов и чаще всего сводили всё к единственному варианту, на который нельзя полагаться в дальнейшем лечении.

Когда входные данные были достаточно подробными, проблемы с постановкой точного диагноза исчезали. В лучших случаях точность превышала 90 %, в среднем варианте ошибочные диагнозы фиксировались менее чем в 40 % случаев.

Google и Anthropic заявили, что их чат-боты при попытках пользователей получить медицинские рекомендации настоятельно советуют обращаться к специалистам. OpenAI указывает в правилах использования своих сервисов, что они не должны применяться для получения медицинских рекомендаций, требующих наличия соответствующей лицензии. xAI и DeepSeek комментарии Financial Times не предоставили.

Некоторые разработчики создают узкоспециализированные медицинские модели. Разработанная Google AMIE показывает неплохие результаты, но специалисты в области медицины отмечают: на её заключения сложно полагаться в полной мере, поскольку живой доктор в значительной степени опирается на визуальную оценку состояния пациента. При этом такие ИИ-модели имеют право на существование в регионах, где есть проблемы с доступом к качественной медицинской помощи в классическом её понимании.

Ошибки нейросетей беспокоят пользователей даже больше, чем риск остаться без работы. Интернет-газета «ЖУК» сообщала, что социологи опросили более 80 000 пользователей чат-бота Claude в 159 странах и выяснили: сильнейшей угрозой со стороны искусственного интеллекта 27 % респондентов назвали его склонность к совершению ошибок. Утрата рабочих мест оказалась на втором месте с 22 % ответов.

Ксения Семашко

Журналист

Наука

7 млн интересуются