1781 подписчик

ChatGPT в сфере здравоохранения недооценивает медицинские чрезвычайные ситуации, показало исследование

5 марта5 мар

4 мин

Исследование Маунт-Синай показало, что ChatGPT Health в 52% случаев неверно сортировал экстренные медицинские случаи. Также исследователи отметили непоследовательность в оповещениях о риске самоубийства. — gizmodo.com Группа исследователей из Медицинской школы Икана при Маунт-Синай заявила, что провела первую независимую оценку безопасности ассистента ChatGPT Health от OpenAI с момента запуска инструмента в январе 2026 года. «Мы хотели ответить на очень простой, но критически важный вопрос: если кто-то столкнулся с реальной неотложной медицинской ситуацией и обращается за помощью к ChatGPT Health, скажет ли он четко, чтобы человек немедленно ехал в отделение неотложной помощи?» — заявил ведущий автор и уролог Ашвин Рамасвами в пресс-релизе. Оказалось, что в большинстве случаев ответ отрицательный. В контролируемом исследовании ученые проверили, насколько хорошо ChatGPT Health справляется с оценкой тяжести состояния пациента — процессом, который в медицине называется «триаж» (сортировка

Группа исследователей из Медицинской школы Икана при Маунт-Синай заявила, что провела первую независимую оценку безопасности ассистента ChatGPT Health от OpenAI с момента запуска инструмента в январе 2026 года.

«Мы хотели ответить на очень простой, но критически важный вопрос: если кто-то столкнулся с реальной неотложной медицинской ситуацией и обращается за помощью к ChatGPT Health, скажет ли он четко, чтобы человек немедленно ехал в отделение неотложной помощи?» — заявил ведущий автор и уролог Ашвин Рамасвами в пресс-релизе.

Оказалось, что в большинстве случаев ответ отрицательный.

В контролируемом исследовании ученые проверили, насколько хорошо ChatGPT Health справляется с оценкой тяжести состояния пациента — процессом, который в медицине называется «триаж» (сортировка).

Исследователи обнаружили, что ChatGPT Health «недооценил триаж» в 52% экстренных случаев, «направляя пациентов с диабетическим кетоацидозом и надвигающейся дыхательной недостаточностью на оценку в течение 24–48 часов, а не в отделение неотложной помощи».

В случае дыхательной недостаточности ИИ четко определил симптомы как ранний предупреждающий знак, но вместо того, чтобы настоятельно рекомендовать экстренную помощь, он заверил пациента, что следует подождать и понаблюдать.

Однако система правильно провела триаж более «учебных» экстренных случаев, таких как инсульт и анафилаксия. Но исследователи отмечают, что именно в тонких ситуациях, где ChatGPT Health потерпел неудачу, клиническое суждение имеет наибольшее значение.

OpenAI запустила ChatGPT Health ранее в этом году после публикации отчета, в котором говорилось, что более 40 миллионов человек по всему миру ежедневно обращались к чат-боту компании за советами по здоровью.

Исследование OpenAI, откуда взялась эта цифра, также показало, что 7 из 10 таких разговоров, связанных со здравоохранением, происходили вне обычных часов работы клиник, а в среднем более 580 000 запросов о здравоохранении в США поступали из «медицинских пустынь» — мест, расположенных более чем в 30 минутах езды от общей или детской больницы.

Поскольку пользователи все чаще обращаются к ИИ по вопросам здравоохранения, эта технология глубже проникает в отрасль благодаря благоприятной регуляторной среде. Инструменты ИИ теперь могут продлевать рецепты в Юте, а комиссар FDA Марти Макари ранее в этом году заявил Fox Business, что некоторые устройства и программное обеспечение могут предоставлять медицинскую информацию без регулирования FDA.

Но это не отменяет вполне реальных и задокументированных рисков для физического и психического здоровья, связанных с чрезмерной зависимостью от ИИ. OpenAI в частности подвергалась интенсивной критике за то, как ее чат-боты справлялись с эпизодами психического здоровья в прошлом, при этом скорбящие семьи подают в суд на компанию за халатное поведение и недостаточные меры безопасности, которые, по их утверждению, способствовали суицидальным мыслям у их родственников.

В ответ OpenAI заявила, что примет меры по этому вопросу, сосредоточившись на обеспечении безопасности путем введения родительского контроля для несовершеннолетних или побуждения пользователей сделать перерыв. ChatGPT Health, например, направляет пользователей к профессиональной помощи в случаях высокого риска. Однако исследование Маунт-Синай выявило, что оповещения о риске самоубийства «появлялись непоследовательно».

«Оповещения системы были инвертированы относительно клинического риска, появляясь более надежно в сценариях с низким риском, чем в случаях, когда кто-то сообщал о намерениях причинить себе вред. В реальной жизни, когда кто-то говорит о том, как именно он собирается нанести себе вред, это признак более непосредственной и серьезной опасности, а не меньшей», — сказал главный специалист по ИИ системы здравоохранения Маунт-Синай Гириш Надкарни. «Это было особенно удивительным и тревожным открытием».

Представитель OpenAI настаивал на том, что ChatGPT следует рассматривать как работу в процессе, с продолжающимися обновлениями безопасности и улучшениями, направленными на совершенствование обработки чат-ботом деликатных ситуаций. Представитель отметил, что исследование оценивает немедленные решения по триажу в контролируемых условиях, тогда как в реальных сценариях у пользователей и даже у самого чат-бота часто возникают последующие вопросы, которые могут изменить оценку риска.

Они также отметили, что ChatGPT Health по-прежнему предоставляется на ограниченной основе, и пользователи, желающие присоединиться, вносят себя в список ожидания.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Ece Yildirim

Оригинал статьи