Найти в Дзене
Природа человека

Искусственный интеллект Google лучше ведет себя у постели больного, чем врачи-люди, и ставит более точный диагноз

Исследователи говорят, что их система искусственного интеллекта может помочь демократизировать медицину. Система искусственного интеллекта (ИИ), обученная проводить медицинские интервью, соответствовала или даже превосходила возможности врачей-людей в общении с симулированными пациентами и составлении списка возможных диагнозов на основе истории болезни пациентов. Чат-бот, основанный на большой языковой модели (LLM), разработанной Google, оказался более точным, чем сертифицированные врачи первичной медико-санитарной помощи, в диагностике респираторных и сердечно-сосудистых заболеваний, среди прочего. По сравнению с врачами-людьми, ему удалось получить аналогичный объем информации во время медицинских интервью и получить более высокий рейтинг по эмпатии. «Насколько нам известно, это первый случай, когда диалоговая система искусственного интеллекта была оптимально разработана для диагностического диалога и сбора истории болезни», — говорит Алан Картикесалингам, клинический исследовател
Иллюстрация Фабио Буонокоре.
Иллюстрация Фабио Буонокоре.

Исследователи говорят, что их система искусственного интеллекта может помочь демократизировать медицину.

Система искусственного интеллекта (ИИ), обученная проводить медицинские интервью, соответствовала или даже превосходила возможности врачей-людей в общении с симулированными пациентами и составлении списка возможных диагнозов на основе истории болезни пациентов.

Чат-бот, основанный на большой языковой модели (LLM), разработанной Google, оказался более точным, чем сертифицированные врачи первичной медико-санитарной помощи, в диагностике респираторных и сердечно-сосудистых заболеваний, среди прочего. По сравнению с врачами-людьми, ему удалось получить аналогичный объем информации во время медицинских интервью и получить более высокий рейтинг по эмпатии.

«Насколько нам известно, это первый случай, когда диалоговая система искусственного интеллекта была оптимально разработана для диагностического диалога и сбора истории болезни», — говорит Алан Картикесалингам, клинический исследователь из Google Health в Лондоне.

Чат-бот, получивший название Articulate Medical Intelligence Explorer (AMIE), пока остается чисто экспериментальным. Его не тестировали на людях с реальными проблемами со здоровьем — только на актерах, обученных изображать людей с заболеваниями. «Мы хотим, чтобы результаты интерпретировались с осторожностью и смирением», — говорит Картикесалингам.

Несмотря на то, что чат-бот еще далеко не используется в клинической практике, авторы утверждают, что в конечном итоге он может сыграть роль в демократизации здравоохранения. Этот инструмент может быть полезным, но он не должен заменять взаимодействие с врачами, говорит Адам Родман, врач-терапевт Гарвардской медицинской школы в Бостоне, штат Массачусетс. «Медицина – это нечто большее, чем просто сбор информации: все дело в человеческих отношениях», – говорит он.

Немногочисленные попытки использовать LLMS в медицине касались вопроса о том, могут ли системы имитировать способность врача собирать историю болезни человека и использовать ее для постановки диагноза. Студенты-медики тратят много времени на обучение именно этому, говорит Родман. «Это один из самых важных и трудных навыков, который необходимо привить врачам».

Одной из проблем, с которыми столкнулись разработчики, была нехватка реальных медицинских разговоров, которые можно было бы использовать в качестве обучающих данных. Чтобы решить эту проблему, исследователи разработали способ обучения чат-бота собственным «разговорам».

Исследователи провели первоначальный раунд тонкой настройки базовой LLM с использованием существующих наборов реальных данных, таких как электронные медицинские записи и расшифровки медицинских разговоров. Для дальнейшего обучения модели исследователи предложили LLM сыграть роль человека с определенным заболеванием и чуткого клинициста, стремящегося понять историю человека и разработать потенциальные диагнозы.

Команда также попросила модель сыграть еще одну роль: роль критика, который оценивает взаимодействие врача с человеком, проходящим лечение, и дает обратную связь о том, как улучшить это взаимодействие. Эта критика используется для дальнейшего обучения LLM и улучшения диалогов.

Для тестирования системы исследователи привлекли 20 человек, которые были обучены выдавать себя за пациентов, и заставили их провести онлайн-консультации в текстовой форме — как с AMIE, так и с 20 сертифицированными врачами. Им не сказали, общаются ли они с человеком или ботом.

Актеры смоделировали 149 клинических сценариев, а затем их попросили оценить свой опыт. Группа специалистов также оценила работу AMIE и врачей.

Система искусственного интеллекта соответствовала или превосходила диагностическую точность врачей всех шести рассматриваемых медицинских специальностей. Бот превзошел врачей по 24 из 26 критериев качества разговора, включая вежливость, объяснение состояния и лечения, честность и выражение заботы и приверженности.

«Это никоим образом не означает, что языковая модель лучше, чем врачи, собирают историю болезни», — говорит Картикесалингам. Он отмечает, что врачи первичной медико-санитарной помощи, принимавшие участие в исследовании, вероятно, не привыкли взаимодействовать с пациентами посредством текстового чата, и это могло повлиять на их работу.

Напротив, у LLM есть несправедливое преимущество: он может быстро составлять длинные и красиво структурированные ответы, говорит Картикесалингам, что позволяет ему постоянно быть внимательным, не уставая.

По его словам, следующим важным шагом в исследовании является проведение более детальных исследований для оценки потенциальных предубеждений и обеспечения справедливости системы в отношении различных групп населения. Команда Google также начинает изучать этические требования к тестированию системы на людях, у которых есть реальные проблемы со здоровьем.

Дэниел Тинг, специалист по искусственному интеллекту из Медицинской школы Duke-NUS в Сингапуре, согласен с тем, что проверка системы на предмет предвзятости необходима для того, чтобы убедиться, что алгоритм не наказывает расовые группы, которые плохо представлены в наборах обучающих данных.

По словам Тинга, конфиденциальность пользователей чат-ботов также является важным аспектом, который следует учитывать. «Для многих коммерческих платформ с большими языковыми моделями мы до сих пор не уверены, где хранятся данные и как они анализируются», — говорит он.

Nature: https://doi.org/10.1038/d41586-024-00099-4