Найти тему
Гламурный Дозор

ChatGPT не справляется с диагностированием детских болезней. Он ошибается в 83 процентах случаев.

ChatGPT не справляется со специализированными медицинскими диагнозами. Не бросайте пока своих врачей.
ChatGPT не справляется со специализированными медицинскими диагнозами. Не бросайте пока своих врачей.

Новое исследование показывает, что ChatGPT нужно вернуться в медицинскую школу.

ChatGPT от OpenAI все ближе к тому, чтобы заменить семейного врача, поскольку все более продвинутый чатбот не смог точно поставить диагноз в подавляющем большинстве гипотетических случаев в педиатрии.

Такие выводы содержатся в новом исследовании, опубликованном 2 января в журнале JAMA Pediatrics, которое провели ученые из Детского медицинского центра Коэна в Нью-Йорке. Исследователи проанализировали ответы бота на запросы о медицинской диагностике детских болезней и обнаружили, что частота ошибок в тестах составила 83 процента.

В исследовании использовались так называемые педиатрические задачи, или медицинские случаи, изначально размещенные в группах врачей в качестве возможностей для обучения (или диагностических задач) с необычной или ограниченной информацией. Исследователи отобрали 100 задач, опубликованных в журналах JAMA Pediatrics и NEJM в период с 2013 по 2023 год.

ChatGPT поставил неверные диагнозы в 72 из 100 экспериментальных случаев, а также выдал 11 ответов, которые были признаны "клинически связанными" с правильным диагнозом, но считались слишком широкими, чтобы быть правильными.

Исследователи частично объясняют эту неудачу неспособностью генеративного ИИ распознавать взаимосвязь между определенными состояниями и внешними или уже существующими обстоятельствами, что часто используется для диагностики пациентов в клинических условиях. Например, ChatGPT не смог связать "нейропсихиатрические заболевания" (такие как аутизм) с часто встречающимися случаями дефицита витаминов и другими состояниями, основанными на ограничительной диете.

В исследовании делается вывод, что ChatGPT нуждается в постоянном обучении и привлечении медицинских специалистов, которые будут питать ИИ не информацией из интернета, которая часто может содержать дезинформацию, а проверенной медицинской литературой и опытом.

Чат-боты на базе ИИ, основанные на больших языковых моделях (Large Language Models, LLM), ранее изучались на предмет их эффективности в диагностике медицинских случаев и выполнении повседневных задач врачей. В прошлом году исследователи проверили способность генеративного ИИ сдать экзамен на медицинскую лицензию США, состоящий из трех частей.

Несмотря на то, что он по-прежнему подвергается критике за ограничения в обучении и потенциал усугубления медицинских предубеждений, многие медицинские группы, включая Американскую медицинскую ассоциацию, не рассматривают развитие ИИ в этой области только как угрозу замены. Напротив, считается, что лучше обученные ИИ созрели для использования их административного и коммуникативного потенциала, например, для создания текстов для пациентов, объяснения диагнозов в общепринятых терминах или для создания инструкций. Клиническое применение, например диагностика, остается спорной и трудноизучаемой темой.

В связи с этим новый отчет представляет собой первый анализ диагностического потенциала чатбота в чисто педиатрической среде - с учетом специальной медицинской подготовки, которую проходят медицинские работники. Его нынешние ограничения показывают, что даже самый продвинутый чатбот на публичном рынке пока не может конкурировать со всем спектром человеческих знаний.