429,6 тыс подписчиков

Настоящих врачей не заменить: процент ошибок ИИ-чат-ботов зашкаливает

15 апреля15 апр

3 мин

Financial Times | Великобритания Ведущие ИИ-модели в подавляющем большинстве случаев приходят к неверным выводам, если информация о пациенте была неполной, пишет FT. В ходе тестов выяснилось, что показатели ошибок превышают 80% при постановке так называемого дифференциального диагноза. Майкл Пил (Michael Peel) Ведущие ИИ-модели, включая OpenAI и DeepSeek, слишком поспешно принимают решения на основе неполной информации о пациенте. ИноСМИ теперь в MAX! Подписывайтесь на главное международное >>> Согласно новому исследованию о рисках использования ИИ-чат-ботов в качестве "цифровых врачей", они дают сбой при постановке медицинских диагнозов, если у них нет полной информации. "Шах и мат Урсуле": на Западе объяснили, что Орбан сделал с Евросоюзом Исследование показало, что основные языковые модели испытывают сложности с постановкой возможных диагнозов, если их данные о пациенте ограничены. Также они часто слишком быстро сужают круг вариантов до единственного ответа. Результаты подтверждают

Financial Times | Великобритания

Ведущие ИИ-модели в подавляющем большинстве случаев приходят к неверным выводам, если информация о пациенте была неполной, пишет FT. В ходе тестов выяснилось, что показатели ошибок превышают 80% при постановке так называемого дифференциального диагноза.

Майкл Пил (Michael Peel)

Ведущие ИИ-модели, включая OpenAI и DeepSeek, слишком поспешно принимают решения на основе неполной информации о пациенте.

ИноСМИ теперь в MAX! Подписывайтесь на главное международное >>>

Согласно новому исследованию о рисках использования ИИ-чат-ботов в качестве "цифровых врачей", они дают сбой при постановке медицинских диагнозов, если у них нет полной информации.

"Шах и мат Урсуле": на Западе объяснили, что Орбан сделал с Евросоюзом

Исследование показало, что основные языковые модели испытывают сложности с постановкой возможных диагнозов, если их данные о пациенте ограничены. Также они часто слишком быстро сужают круг вариантов до единственного ответа.

Результаты подтверждают общий недостаток использования искусственного интеллекта, хотя чат-боты и могут определять вероятные заболевания после полного описания случая. Они менее надежны на ранних стадиях клинического исследования, когда сведений о пациенте недостаточно.

Полученные результаты доказывают, что не стоит полагаться исключительно на эти технологии при выявлении проблем со здоровьем, особенно если данные неточные или неполные.

"Такие модели отлично справляются с постановкой окончательного диагноза, когда данных достаточно, но испытывают затруднения на начальных этапах клинических случаев, когда информации мало", — рассказала руководитель исследования и специалист медицинского центра Mass General Brigham в Массачусетсе Ария Рао.

В исследовании, опубликованном в понедельник в журнале Jama Network Open, модели ИИ испытывали на основе 29 клинических случаев из стандартного медицинского справочника.

В ходе эксперимента данные вводились поэтапно. Они включали в себя общую картину текущего заболевания, результаты медосмотра и лабораторных анализов. Исследователи задавали большим языковым моделям вопросы по диагностике и оценивали уровень их ошибок, учитывая все вопросы, на которые были даны не совсем верные ответы.

Исследователи провели оценку 21 большой языковой модели, включая OpenAI, Anthropic, Google, xAI и DeepSeek.

Оказалось, что показатели ошибок превышали 80% для всех моделей, которым приходилось проводить так называемый дифференциальный диагноз при отсутствии полной информации о пациенте.

Показатели ошибок снизились до 40% при постановке окончательных диагнозов на основе более полных данных. Лучшие модели демонстрировали точность свыше 90%.

Как сообщила компания Anthropic, языковая модель Claude обучена направлять людей, задающих вопросы по теме медицины, к специалистам. В Google сообщили, что Gemini тоже рекомендует пользователям обращаться к врачам, а также имеет встроенные в приложение напоминания, которые побуждают пользователей перепроверять информацию.

Политика использования OpenAI гласит, что ее услуги не должны использоваться для предоставления медицинских рекомендаций, требующих лицензии, без участия соответствующих специалистов.

Компания xAI не ответила на запрос о комментарии. С компанией DeepSeek связаться не удалось.

Многие ИТ-компании разрабатывают более специализированные медицинские языковые модели, например, Articulate Medical Intelligence Explorer (AMIE) от Google и MedFound.

По словам эпидемиолога из Лондонской школы гигиены и тропической медицины Санджая Кинры, первые результаты оценки таких моделей, как AMIE, были многообещающими. Однако, по его словам, вряд ли они смогут сравниться с заключениями врачей, которые "ориентируются на внешний вид и самочувствие пациента".

"Тем не менее, такие ИИ-модели могут играть важную роль во многих ситуациях, особенно в тех местах, где доступ к медицинской помощи и врачам ограничен, — отметил Кинра. — Так что нам срочно требуется провести исследования с участием настоящих пациентов".

Оригинал статьи

Еще больше новостей в телеграм-канале ИноСМИ >>