Университет Массачусетс в Амхерсте (UMass Amherst) и стартап Mendel провели совместное исследование, посвященное выявлению галлюцинаций искусственного интеллекта в медицинских обзорах, созданных с помощью больших языковых моделей (LLM). Исследование фокусировалось на двух моделях — GPT-4 и Llama-3 — и оценивало, насколько точно они обобщают и передают информацию из исходных клинических заметок.
Галлюцинации искусственного интеллекта — задокументированное явление и представляет собой уверенные ответы ИИ, которые не подтверждаются данными обучения или вымышленные ответы, не имеющие отношения к действительности. Например, использование ИИ в поисковой системе Google вызывало абсурдные ответы, такие как рекомендации «есть один маленький камень в день» или «добавлять нетоксичный клея на пиццу». Однако в случае медицинских обзоров эти галлюцинации могут подорвать надежность и точность медицинских записей.
В ходе исследования были выделены пять категорий галлюцинаций в медицинских обзорах: информация о пациенте, история болезни, симптомы/диагнозы/хирургические процедуры, инструкции по лекарствам и последующее наблюдение. Галлюцинации были определены как неверная или слишком обобщенная, по сравнению с исходными данными, информация.
Исследование показало, что обе модели ИИ склонны к созданию неточной или обобщенной информации, иначе говоря, к галлюцинациям. Из 50 медицинских заметок GPT-4 генерировал 21 обзор с неверной информацией и 50 обзоров с обобщенной информацией. Llama-3 сделал 19 обзоров с неверной информацией и 47 с обобщенной.
GPT-4 часто делал смелые, двухступенчатые логические заключения, которые могли приводить к галлюцинациям, в то время как Llama-3 предпочитал пересказывать детали «как есть», что снижало количество логических ошибок, но не исключало обобщения.
Исследование подчеркивает необходимость создания эффективных систем для обнаружения галлюцинаций в медицинских обзорах, созданных ИИ. Такие системы помогут повысить надежность и точность медицинских записей, что особенно важно в условиях клинической практики.
Команда исследователей из Mendel предложила использовать систему Hypercube для обнаружения галлюцинаций. Hypercube обнаруживал большее количество галлюцинаций, чем человеческие эксперты, хотя и был склонен к переоценке их количества. Исследователи предложили использовать Hypercube на начальном этапе для предварительного выявления галлюцинаций, а затем интегрировать результаты с проверкой экспертами для повышения общей точности.
С учетом растущей роли ИИ в здравоохранении и прогнозируемого увеличения мировых доходов от ИИ-платформ в этой области до 18,8 миллиарда долларов к 2027 году, интеграция таких технологий с электронными медицинскими записями становится все более актуальной. Исследование UMass Amherst и Mendel демонстрирует важность разработки систем, способных эффективно выявлять и корректировать ошибки ИИ, что является ключевым шагом для безопасного и эффективного использования искусственного интеллекта в медицине.