839 подписчиков

Искусственный интеллект дает проблематичные советы по здоровью в половине случаев

3 дня назад3 дня назад

5 мин

Исследование BMJ Open: пять ИИ-чат-ботов дают проблемные советы по здоровью в половине случаев. Худший результат у Grok, ссылки часто сфабрикованы. Представьте, что вам только что поставили диагноз рак на ранней стадии. Перед следующим визитом к врачу вы решаете задать вопрос чат-боту с искусственным интеллектом. В каких альтернативных клиниках можно успешно лечить рак? В считанные секунды вы получаете отточенный ответ со сносками, который читается так, будто его написал врач. Однако некоторые утверждения необоснованны, сноски никуда не ведут, и чат-бот ни разу не намекнул на то, что сам вопрос может быть неуместным. Этот сценарий не гипотетический. Именно к такому выводу пришла группа из семи исследователей, подвергнув пять самых популярных в мире чат-ботов систематическому стресс тесту на обработку медицинской информации. Результаты опубликованы в журнале BMJ Open. Каждому чат-боту ChatGPT, Gemini, Grok, Meta AI и DeepSeek было задано по 50 вопросов о здоровье и медицине. Вопросы охв

Исследование BMJ Open: пять ИИ-чат-ботов дают проблемные советы по здоровью в половине случаев. Худший результат у Grok, ссылки часто сфабрикованы.

Представьте, что вам только что поставили диагноз рак на ранней стадии. Перед следующим визитом к врачу вы решаете задать вопрос чат-боту с искусственным интеллектом. В каких альтернативных клиниках можно успешно лечить рак? В считанные секунды вы получаете отточенный ответ со сносками, который читается так, будто его написал врач. Однако некоторые утверждения необоснованны, сноски никуда не ведут, и чат-бот ни разу не намекнул на то, что сам вопрос может быть неуместным.

Этот сценарий не гипотетический. Именно к такому выводу пришла группа из семи исследователей, подвергнув пять самых популярных в мире чат-ботов систематическому стресс тесту на обработку медицинской информации. Результаты опубликованы в журнале BMJ Open.

Каждому чат-боту ChatGPT, Gemini, Grok, Meta AI и DeepSeek было задано по 50 вопросов о здоровье и медицине. Вопросы охватывали такие темы, как рак, вакцины, стволовые клетки, питание и спортивные достижения. Два эксперта независимо оценили каждый ответ. Они обнаружили, что почти 20 процентов ответов были крайне проблематичными, половина проблематичными, а 30 процентов несколько проблематичными. Ни один из чат-ботов не смог надежно выдать полностью точные списки литературы. Всего на два из 250 вопросов было категорически отказано в ответе.

В целом пять чат-ботов показали примерно одинаковые результаты. Худшие результаты оказались у Grok: 58 процентов его ответов были помечены как проблемные. За ним следуют ChatGPT с 52 процентами и Meta AI с 50 процентами.

Однако эффективность чат-ботов варьировалась в зависимости от темы. Лучше всего они справлялись с вакцинами и раком. Это области с обширными, хорошо структурированными исследованиями. Но даже здесь они выдавали проблемные ответы примерно в четверти случаев. Наибольшие трудности они испытывали в области питания и спортивных достижений. Это сферы, переполненные противоречивыми советами в интернете, где убедительных доказательств крайне мало.

Проблемы действительно возникли с открытыми вопросами. 32 процента ответов на них были оценены как крайне проблематичные по сравнению с всего 7 процентами для закрытых вопросов. Это различие важно, потому что большинство реальных вопросов о здоровье задаются именно в открытой форме. Люди не спрашивают чат-ботов о простых вещах типа верно или неверно. Они спрашивают что-то вроде: какие добавки лучше всего подходят для общего здоровья? Это тот тип вопросов, который предполагает уверенный и расплывчатый, но потенциально вредный ответ.

Когда исследователи запросили у каждого чат-бота десять научных ссылок, медианное значение полноты запроса составило всего 40 процентов. Ни одному чат-боту не удалось составить ни одного абсолютно точного списка литературы за 25 попыток. Ошибки варьировались от неверных авторов и неработающих ссылок до полностью сфабрикованных статей. Это особенно опасно, поскольку ссылки выглядят как доказательства. У неспециалиста, увидевшего аккуратно оформленный список цитат, мало оснований сомневаться в содержании выше.

Почему чат-боты допускают ошибки

Есть простая причина, почему чат-боты дают неверные медицинские ответы. Языковые модели ничего не знают. Они предсказывают наиболее статистически вероятное следующее слово, основываясь на данных обучения и контексте. Они не взвешивают доказательства и не выносят оценочных суждений. В их учебные материалы входят рецензируемые научные статьи, а также обсуждения на Reddit, блоги о здоровом образе жизни и аргументы из социальных сетей.

Исследователи не задавали нейтральных вопросов. Они намеренно разработали подсказки, призванные подтолкнуть чат-ботов к даче вводящих в заблуждение ответов. Это стандартный метод стресс тестирования в исследованиях безопасности ИИ, известный как тестирование на прочность. Это означает, что показатели ошибок, вероятно, завышены по сравнению с тем, что вы бы увидели при более нейтральной формулировке. В исследовании также тестировались бесплатные версии каждой модели, доступные в феврале 2025 года. Платные тарифы и более новые версии могут показать лучшие результаты.

Тем не менее, большинство людей используют именно бесплатные версии, и большинство вопросов о здоровье сформулированы не очень тщательно. Условия исследования, если уж на то пошло, отражают то, как люди на самом деле используют эти инструменты.

Выводы этого исследования не существуют изолированно. Они вписываются в растущий объем доказательств, которые в совокупности создают целостную картину. Исследование, опубликованное в феврале 2026 года в журнале Nature Medicine, показало нечто удивительное. Чат-боты сами могли дать правильный медицинский ответ почти в 95 процентах случаев. Но когда реальные люди использовали этих же чат-ботов, они получали правильный ответ менее чем в 35 процентах случаев. Это ничуть не лучше, чем у тех, кто вообще не пользовался чат-ботами. Проще говоря, проблема не только в том, дает ли чат-бот правильный ответ. Проблема в том, могут ли обычные пользователи понять и правильно использовать этот ответ.

В недавнем исследовании, опубликованном в журнале Jama Network Open, были протестированы 21 ведущая модель искусственного интеллекта. Исследователям было предложено определить возможные медицинские диагнозы. Когда моделям предоставлялись только основные данные, такие как возраст, пол и симптомы пациента, они испытывали трудности. Они не сумели предложить правильный набор возможных заболеваний более чем в 80 процентах случаев. Как только исследователи добавили результаты обследований и лабораторных анализов, точность взлетела выше 90 процентов.

Между тем, другое исследование, проведенное в США и опубликованное в журнале Nature Communications Medicine, показало, что чат-боты охотно повторяли и даже дополняли выдуманные медицинские термины, которые вставлялись в подсказки. В совокупности эти исследования позволяют предположить, что недостатки, выявленные в работе BMJ Open, не являются особенностями одного экспериментального метода. Они отражают нечто более фундаментальное в современном состоянии технологий.

Эти чат-боты никуда не денутся, да и не должны. Они могут обобщать сложные темы, помогать составлять вопросы для врача и служить отправной точкой для исследований. Но исследование ясно показывает, что к ним не следует относиться как к самостоятельным медицинским авторитетам. Если вы используете один из этих чат-ботов для получения медицинских советов, проверяйте каждое утверждение о здоровье, которое он делает. Рассматривайте ссылки на него как рекомендации к проверке, а не как факт. Обращайте внимание на то, когда ответ звучит уверенно, но не содержит никаких оговорок.

Служба переводов газеты «Век»