Новое исследование показывает, что ChatGPT нужно вернуться в медицинскую школу.
ChatGPT от OpenAI все ближе к тому, чтобы заменить семейного врача, поскольку все более продвинутый чатбот не смог точно поставить диагноз в подавляющем большинстве гипотетических случаев в педиатрии.
Такие выводы содержатся в новом исследовании, опубликованном 2 января в журнале JAMA Pediatrics, которое провели ученые из Детского медицинского центра Коэна в Нью-Йорке. Исследователи проанализировали ответы бота на запросы о медицинской диагностике детских болезней и обнаружили, что частота ошибок в тестах составила 83 процента.
В исследовании использовались так называемые педиатрические задачи, или медицинские случаи, изначально размещенные в группах врачей в качестве возможностей для обучения (или диагностических задач) с необычной или ограниченной информацией. Исследователи отобрали 100 задач, опубликованных в журналах JAMA Pediatrics и NEJM в период с 2013 по 2023 год.
ChatGPT поставил неверные диагнозы в 72 из 100 экспериментальных случаев, а также выдал 11 ответов, которые были признаны "клинически связанными" с правильным диагнозом, но считались слишком широкими, чтобы быть правильными.
Исследователи частично объясняют эту неудачу неспособностью генеративного ИИ распознавать взаимосвязь между определенными состояниями и внешними или уже существующими обстоятельствами, что часто используется для диагностики пациентов в клинических условиях. Например, ChatGPT не смог связать "нейропсихиатрические заболевания" (такие как аутизм) с часто встречающимися случаями дефицита витаминов и другими состояниями, основанными на ограничительной диете.
В исследовании делается вывод, что ChatGPT нуждается в постоянном обучении и привлечении медицинских специалистов, которые будут питать ИИ не информацией из интернета, которая часто может содержать дезинформацию, а проверенной медицинской литературой и опытом.
Чат-боты на базе ИИ, основанные на больших языковых моделях (Large Language Models, LLM), ранее изучались на предмет их эффективности в диагностике медицинских случаев и выполнении повседневных задач врачей. В прошлом году исследователи проверили способность генеративного ИИ сдать экзамен на медицинскую лицензию США, состоящий из трех частей.
Несмотря на то, что он по-прежнему подвергается критике за ограничения в обучении и потенциал усугубления медицинских предубеждений, многие медицинские группы, включая Американскую медицинскую ассоциацию, не рассматривают развитие ИИ в этой области только как угрозу замены. Напротив, считается, что лучше обученные ИИ созрели для использования их административного и коммуникативного потенциала, например, для создания текстов для пациентов, объяснения диагнозов в общепринятых терминах или для создания инструкций. Клиническое применение, например диагностика, остается спорной и трудноизучаемой темой.
В связи с этим новый отчет представляет собой первый анализ диагностического потенциала чатбота в чисто педиатрической среде - с учетом специальной медицинской подготовки, которую проходят медицинские работники. Его нынешние ограничения показывают, что даже самый продвинутый чатбот на публичном рынке пока не может конкурировать со всем спектром человеческих знаний.