Найти в Дзене
DigiNews

Чат-боты с «AI» дают медицинские советы не лучше, чем поисковая система

Исследование Оксфордского университета показало, что чат-боты с ИИ не улучшают медицинские консультации для общественности, а иногда дают противоречивые и неверные советы. Люди усугубляют проблему, не предоставляя чат-ботам нужные детали. — theregister.com Исследователи в области здравоохранения обнаружили, что чат-боты с искусственным интеллектом могут подвергать пациентов риску, давая некачественные медицинские советы. Ученые из Оксфордского интернет-института и Департамента первичной медико-санитарной помощи Оксфордского университета совместно с MLCommons и другими учреждениями оценили медицинские рекомендации, которые люди получают от больших языковых моделей (LLM). Авторы провели исследование с участием 1298 британских респондентов, которым было предложено выявить потенциальные заболевания и рекомендовать курс действий в ответ на одну из десяти различных медицинских ситуаций, разработанных экспертами. Респонденты были разделены на экспериментальную группу, которой было предложено

Исследование Оксфордского университета показало, что чат-боты с ИИ не улучшают медицинские консультации для общественности, а иногда дают противоречивые и неверные советы. Люди усугубляют проблему, не предоставляя чат-ботам нужные детали. — theregister.com

Исследователи в области здравоохранения обнаружили, что чат-боты с искусственным интеллектом могут подвергать пациентов риску, давая некачественные медицинские советы.

Ученые из Оксфордского интернет-института и Департамента первичной медико-санитарной помощи Оксфордского университета совместно с MLCommons и другими учреждениями оценили медицинские рекомендации, которые люди получают от больших языковых моделей (LLM).

Авторы провели исследование с участием 1298 британских респондентов, которым было предложено выявить потенциальные заболевания и рекомендовать курс действий в ответ на одну из десяти различных медицинских ситуаций, разработанных экспертами.

Респонденты были разделены на экспериментальную группу, которой было предложено принимать решения с помощью LLM (GPT-4o, Llama 3, Command R+), и контрольную группу, которой было предложено принимать решения на основе обычных для них диагностических методов, часто включавших поиск в интернете или собственные знания.

Исследователи — Эндрю М. Бин, Ребекка Элизабет Пейн, Гай Парсонс, Ханна Роуз Кирк, Хуан Сиро, Рафаэль Москера-Гомес, Сара Хинкапие М, Аруна С. Экана́йака, Лайонел Тарассенко, Люк Роше и Адам Махди — описали свои выводы в отчете, опубликованном в Nature Medicine.

Ссылаясь на предыдущие работы, показавшие, что LLM не улучшают клиническое мышление врачей, авторы пришли к выводу, что LLM не помогают и широкой общественности.

“Несмотря на высокую компетентность LLM в выполнении задачи, комбинация LLM и человека не превосходила контрольную группу в оценке клинической остроты и была хуже в выявлении релевантных состояний”, — говорится в отчете.

Этот вывод может быть нежелательным для коммерческих поставщиков услуг ИИ, таких как Anthropic, Google и OpenAI, которые проявляют интерес к продаже ИИ на рынке здравоохранения.

Участники исследования, использующие LLM, не показали лучших результатов в оценке состояния здоровья и рекомендации курса действий по сравнению с участниками, обращавшимися к поисковой системе или полагавшимися на личные знания. Более того, пользователи LLM испытывали трудности с предоставлением чат-ботам релевантной информации, а LLM, в свою очередь, часто отвечали смешанными сообщениями, сочетающими хорошие и плохие рекомендации.

Исследование отмечает, что LLM представляли различные типы неверной информации, “например, рекомендовали позвонить по частичному номеру телефона США и в том же диалоге рекомендовали позвонить по номеру ‘Triple Zero’ — австралийскому номеру экстренных служб”.

В исследовании также упоминается случай, когда “двое пользователей отправили очень похожие сообщения с описанием симптомов субарахноидального кровоизлияния, но получили противоположные советы. Одному пользователю сказали лечь в темной комнате, а другому дали правильную рекомендацию обратиться за неотложной помощью”.

Более того, исследователи обнаружили, что методы тестирования по эталонным показателям часто не учитывают, как люди и LLM взаимодействуют. Модели могут преуспевать в ответах на структурированные вопросы на основе экзаменов для получения медицинской лицензии, но они не справлялись в интерактивных сценариях.

“Обучение моделей ИИ на медицинских учебниках и клинических записях может улучшить их производительность на медицинских экзаменах, но это сильно отличается от практики медицины”, — сообщил соавтор статьи Люк Роше, доцент Оксфордского интернет-института, изданию The Register по электронной почте. “Врачи имеют многолетний опыт сортировки пациентов, используя протоколы, основанные на правилах, разработанные для снижения ошибок.

“Даже при значительных прорывах в разработке ИИ обеспечение того, чтобы будущие модели могли сбалансировать потребность пользователей в успокоении с ограниченными возможностями наших государственных систем здравоохранения, останется проблемой. По мере того как все больше людей полагаются на чат-боты для получения медицинских советов, мы рискуем перегрузить и без того напряженные больницы неверными, но правдоподобными диагнозами”.

Авторы приходят к выводу, что чат-боты с ИИ еще не готовы к принятию медицинских решений в реальном мире.

“В совокупности наши выводы предполагают, что безопасное развертывание LLM в качестве общественных медицинских ассистентов потребует возможностей, выходящих за рамки экспертных медицинских знаний”, — говорится в исследовании. “Несмотря на высокие показатели на медицинских эталонах, предоставление людям LLM текущего поколения, по-видимому, не улучшает их понимание медицинской информации”. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Thomas Claburn

Оригинал статьи