Ой, ребята, ой, не могу. Прямо до слёз, про хвалёную американскую медицину. Ну, и про уровень квалификации их врачей.
Только, прошу не начинать волынку "А у нас что, врачи лучше что ли?". Во-первых, все хорошие американские - это мигранты из наших, индийских и китайских ВУЗов, во-вторых - мы же не орём на каждом углу про "Лучшую в мире медицину".
Итак, пишет NYT:
Чат-боты превзошли американских врачей в диагностике заболеваний, которым мешала излишняя самоуверенность
В ходе эксперимента врачи, которым для диагностики болезни был предоставлен чат-бот, показали лишь немногим лучшие результаты, чем те, кто этого не делал. Но чат-бот в одиночку превзошел всех врачей.
Врач доктор Адам Родман, эксперт по внутренним болезням в медицинском центре Beth Israel Deaconess в Бостоне, с уверенностью заявил, что чат-боты, созданные с использованием искусственного интеллекта, помогут врачам диагностировать заболевания.
Он ошибался.
Вместо этого, в исследовании, которое доктор Родман помогал разрабатывать, врачи, которым предоставили ChatGPT-4 вместе с обычными ресурсами, показали лишь незначительные результаты, чем врачи, у которых не было доступа к боту. И, к удивлению исследователей, один только ChatGPT превзошел врачей.
“Я был потрясен”, - сказал доктор Родман.
Чат-бот от компании OpenAI набрал в среднем 90 процентов баллов при диагностике заболевания на основе описания случая и объяснения причин его возникновения. Врачи, которым случайным образом было назначено использовать чат-бота, получили средний балл в 76 процентов. Те, кому случайным образом было отказано в его использовании, набрали в среднем 74 процента баллов.
Исследование показало не только превосходную работу чат-бота.
Оно продемонстрировало непоколебимую веру врачей в поставленный ими диагноз, даже когда чат-бот потенциально предлагает лучший вариант.
И это исследование показало, что, хотя врачи в своей работе пользуются инструментами искусственного интеллекта, мало кто знает, как использовать возможности чат-ботов. В результате они не смогли воспользоваться возможностями систем искусственного интеллекта для решения сложных диагностических задач и объяснения своих диагнозов.
Системы искусственного интеллекта должны быть “помощниками врача”, - сказал доктор Родман, предлагая ценные дополнительные мнения о диагнозах.
Но, похоже, есть путь, который еще предстоит пройти, прежде чем этот потенциал будет реализован.
В эксперименте приняли участие 50 врачей - ординаторов и лечащих врачей, нанятых через несколько крупных американских больничных систем, и он был опубликован в прошлом месяце в журнале JAMA Network Open.
Испытуемым было предоставлено шесть историй болезни, и они были оценены по их способности предлагать диагнозы и объяснять, почему они одобряют или отвергают их. Их оценки также включали постановку окончательного диагноза.
Оценщиками были медицинские эксперты, которые видели только ответы участников, не зная, были ли они от врача с ChatGPT, врача без него или от самого ChatGPT.
Истории болезни, использованные в исследовании, были основаны на реальных пациентах и являются частью набора из 105 случаев, который использовался исследователями с 1990-х годов. Эти случаи намеренно никогда не публиковались, чтобы студенты-медики и другие люди могли пройти тестирование на них без какого-либо предварительного уведомления. Это также означало, что ChatGPT не мог быть обучен на них.
Но чтобы проиллюстрировать суть исследования, исследователи опубликовали один из шести случаев, в которых были протестированы врачи, а также ответы на тестовые вопросы по этому случаю от врача, набравшего высокий балл, и от врача, набравшего низкий балл.
В этом исследовании 76-летний пациент испытывал сильную боль в пояснице, ягодицах и икрах при ходьбе. Боль появилась через несколько дней после того, как ему была проведена баллонная ангиопластика для расширения коронарной артерии. В течение 48 часов после процедуры его лечили гепарином, разжижающим кровь.
Мужчина жаловался на высокую температуру и усталость. Его кардиолог провел лабораторные исследования, которые выявили новое проявление анемии и увеличение содержания азота и других продуктов жизнедеятельности почек в его крови. Десять лет назад мужчина перенес операцию по шунтированию в связи с болезнью сердца.
В материалах дела также содержались подробности медицинского осмотра мужчины, а затем были представлены результаты его лабораторных анализов.
Правильный диагноз — холестериновая эмболия - состояние, при котором частички холестерина отрываются от бляшек в артериях и закупоривают кровеносные сосуды.
Участникам было предложено назвать три возможных диагноза с подтверждающими доказательствами для каждого из них. Их также попросили представить по каждому возможному диагнозу данные, которые его не подтверждают или которые ожидались, но не были представлены.
Участников также попросили поставить окончательный диагноз. Затем они должны были назвать до трех дополнительных шагов, которые они предпримут в процессе диагностики.
Как и диагноз для опубликованного случая, диагнозы для остальных пяти случаев в исследовании было нелегко установить. Но и они не были настолько редкими, чтобы быть почти неслыханными. Тем не менее, врачи в среднем справлялись хуже, чем чат-бот.
Исследователи спросили, что происходит?
Ответ, по-видимому, зависит от того, как врачи устанавливают диагноз и как они используют такой инструмент, как искусственный интеллект.
Проблема, по словам доктора Эндрю Ли, историка медицины из женской больницы Бригама, который не принимал участия в исследовании, заключается в том, что “мы действительно не знаем, как думают врачи”.
Описывая, как они ставят диагноз, врачи обычно говорят “интуитивно” или “основываясь на моем опыте”, - говорит доктор Ли.
После первоначального шока, вызванного результатами нового исследования, доктор Родман решил немного углубиться в данные и просмотреть фактические журналы сообщений между врачами и ChatGPT. Врачи, должно быть, видели диагнозы чат-бота и его рассуждения, так почему же те, кто пользовался чат-ботом, не добились большего успеха?
Оказывается, чат-бот часто не убеждал врачей, когда они указывали на что-то, что противоречило их диагнозам. Вместо этого они, как правило, придерживались своего собственного представления о правильном диагнозе.
“Они не слушали ИИ, когда ИИ говорил им то, с чем они не были согласны”, - сказал доктор Родман.
В этом есть смысл, сказала Лаура Зваан, которая изучает клинические рассуждения и диагностические ошибки в Медицинском центре Erasmus в Роттердаме и не принимала участия в исследовании.
“Люди обычно слишком самоуверенны, когда думают, что они правы”, - сказала она.
Но была еще одна проблема: многие врачи не знали, как использовать чат-бота в полной мере.
Доктор Чен сказал, что заметил, что, когда он просматривал журналы чатов врачей, “они рассматривали это как поисковую систему для прямых вопросов: "Является ли цирроз фактором риска развития рака? Какие возможные диагнозы существуют при глазной боли?”
“Лишь небольшая часть врачей осознала, что они могут буквально скопировать всю историю болезни в чат-бота и просто попросить его дать исчерпывающий ответ на весь вопрос”, - добавил доктор Чен.
“Лишь небольшая часть врачей на самом деле увидела удивительно умные и исчерпывающие ответы, которые мог дать чат-бот”.