Исследователи говорят, что их система искусственного интеллекта может помочь демократизировать медицину.
Система искусственного интеллекта (ИИ), обученная проводить медицинские интервью, соответствовала или даже превосходила возможности врачей-людей в общении с симулированными пациентами и составлении списка возможных диагнозов на основе истории болезни пациентов.
Чат-бот, основанный на большой языковой модели (LLM), разработанной Google, оказался более точным, чем сертифицированные врачи первичной медико-санитарной помощи, в диагностике респираторных и сердечно-сосудистых заболеваний, среди прочего. По сравнению с врачами-людьми, ему удалось получить аналогичный объем информации во время медицинских интервью и получить более высокий рейтинг по эмпатии.
«Насколько нам известно, это первый случай, когда диалоговая система искусственного интеллекта была оптимально разработана для диагностического диалога и сбора истории болезни», — говорит Алан Картикесалингам, клинический исследователь из Google Health в Лондоне.
Чат-бот, получивший название Articulate Medical Intelligence Explorer (AMIE), пока остается чисто экспериментальным. Его не тестировали на людях с реальными проблемами со здоровьем — только на актерах, обученных изображать людей с заболеваниями. «Мы хотим, чтобы результаты интерпретировались с осторожностью и смирением», — говорит Картикесалингам.
Несмотря на то, что чат-бот еще далеко не используется в клинической практике, авторы утверждают, что в конечном итоге он может сыграть роль в демократизации здравоохранения. Этот инструмент может быть полезным, но он не должен заменять взаимодействие с врачами, говорит Адам Родман, врач-терапевт Гарвардской медицинской школы в Бостоне, штат Массачусетс. «Медицина – это нечто большее, чем просто сбор информации: все дело в человеческих отношениях», – говорит он.
Немногочисленные попытки использовать LLMS в медицине касались вопроса о том, могут ли системы имитировать способность врача собирать историю болезни человека и использовать ее для постановки диагноза. Студенты-медики тратят много времени на обучение именно этому, говорит Родман. «Это один из самых важных и трудных навыков, который необходимо привить врачам».
Одной из проблем, с которыми столкнулись разработчики, была нехватка реальных медицинских разговоров, которые можно было бы использовать в качестве обучающих данных. Чтобы решить эту проблему, исследователи разработали способ обучения чат-бота собственным «разговорам».
Исследователи провели первоначальный раунд тонкой настройки базовой LLM с использованием существующих наборов реальных данных, таких как электронные медицинские записи и расшифровки медицинских разговоров. Для дальнейшего обучения модели исследователи предложили LLM сыграть роль человека с определенным заболеванием и чуткого клинициста, стремящегося понять историю человека и разработать потенциальные диагнозы.
Команда также попросила модель сыграть еще одну роль: роль критика, который оценивает взаимодействие врача с человеком, проходящим лечение, и дает обратную связь о том, как улучшить это взаимодействие. Эта критика используется для дальнейшего обучения LLM и улучшения диалогов.
Для тестирования системы исследователи привлекли 20 человек, которые были обучены выдавать себя за пациентов, и заставили их провести онлайн-консультации в текстовой форме — как с AMIE, так и с 20 сертифицированными врачами. Им не сказали, общаются ли они с человеком или ботом.
Актеры смоделировали 149 клинических сценариев, а затем их попросили оценить свой опыт. Группа специалистов также оценила работу AMIE и врачей.
Система искусственного интеллекта соответствовала или превосходила диагностическую точность врачей всех шести рассматриваемых медицинских специальностей. Бот превзошел врачей по 24 из 26 критериев качества разговора, включая вежливость, объяснение состояния и лечения, честность и выражение заботы и приверженности.
«Это никоим образом не означает, что языковая модель лучше, чем врачи, собирают историю болезни», — говорит Картикесалингам. Он отмечает, что врачи первичной медико-санитарной помощи, принимавшие участие в исследовании, вероятно, не привыкли взаимодействовать с пациентами посредством текстового чата, и это могло повлиять на их работу.
Напротив, у LLM есть несправедливое преимущество: он может быстро составлять длинные и красиво структурированные ответы, говорит Картикесалингам, что позволяет ему постоянно быть внимательным, не уставая.
По его словам, следующим важным шагом в исследовании является проведение более детальных исследований для оценки потенциальных предубеждений и обеспечения справедливости системы в отношении различных групп населения. Команда Google также начинает изучать этические требования к тестированию системы на людях, у которых есть реальные проблемы со здоровьем.
Дэниел Тинг, специалист по искусственному интеллекту из Медицинской школы Duke-NUS в Сингапуре, согласен с тем, что проверка системы на предмет предвзятости необходима для того, чтобы убедиться, что алгоритм не наказывает расовые группы, которые плохо представлены в наборах обучающих данных.
По словам Тинга, конфиденциальность пользователей чат-ботов также является важным аспектом, который следует учитывать. «Для многих коммерческих платформ с большими языковыми моделями мы до сих пор не уверены, где хранятся данные и как они анализируются», — говорит он.
Nature: https://doi.org/10.1038/d41586-024-00099-4