1269 подписчиков

Медицинские ИИ-мракобесы. Как нейросети ошибаются и дают вредные медицинские советы

28 марта28 мар

6 мин

Всем привет. На своём канале я недавно писал статью с разбором тезиса, что мол "время врачей подошло к концу, а современные нейросети диагностируют заболевания и назначают лечения даже лучше врача". В ней я экспериментально показал, что чаще всего нейросети либо дают очень общий диагноз (это может быть *перечисление широкого спектра диагнозов от ОРВИ до рака мозга*), либо слишком серьёзный (боли в грудной клетки вызванные НЦД, может воспринять за инфаркт миокарда) и хорошо работает только при подробном описании всех симптомов и то, вопрос насколько эффективно, потому что я брал за основу ситуационную задачу с эталоном ответа, которую также могла найти и нейросеть. Однако у учёных больше возможностей, и вот недавно на The Lancet вышла статья, которая говорит нам, что ИИ пока очень плохо умеют отличать медицинскую дезинформацию от реальных клинических рекомендаций. В общем, пока что нет, ИИ не готов заменить врачей. И самое страшное, что некоторые ИИ-модели могут помимо просто ошибок ещё

Оглавление

Насколько ИИ подвержен медицинской дезинформации?
Почему "гуглить симптомы" и "спросить ChatGPT" почти одно и тоже?
Когда ИИ становятся медицинскими мракобесами?

Однако у учёных больше возможностей, и вот недавно на The Lancet вышла статья, которая говорит нам, что ИИ пока очень плохо умеют отличать медицинскую дезинформацию от реальных клинических рекомендаций. В общем, пока что нет, ИИ не готов заменить врачей. И самое страшное, что некоторые ИИ-модели могут помимо просто ошибок ещё давать вредные советы. И если, например, совет вызвать скорую помощь из-за того, что нейросеть восприняла боли от например невралгии поясничного отдела позвоночника за острый аппендицит, не так страшен, то вот советы по укреплению иммунитета с помощью... чеснока в прямую кишку может быть опасной для здоровья практикой. Но обо всём по порядку.

Насколько ИИ подвержен медицинской дезинформации?

Учёные провели исследование двух ИИ-моделей. ChatGPT и Gemma-3–4B-it. Каждой модели помимо точной медицинской информации добавили ещё и данные из соцсетей, форумов, а также реальные медицинские карты, но в которые были добавлены искажения. Соответственно, ИИ нужно было "отделить зёрна от плевел"... ну то есть выявить, где ложная медицинская информация, а где точная. И результат неутешителен, ChatGPT из 100000 случаев дезинформации 46108 случаев восприняла за правдивую. Gemma же оказалась ещё более "доверчивой", из 7000 случаев дезинформации 5023 она восприняла за правдивую. Информация эта показательная тем, что большинство подобных языковых моделей доступных для обычных людей подключены ко всему интернету и свои ответы основывают на них. А в интернете как мы знаем помимо реально хороших медицинских сайтов (которые всё же не заменяют консультацию врача) есть и условное "реальное здравоохранение", которое расскажет им о том, что медицина не лечит причины заболевания или Наталья Зуборева, которая порекомендует вам кофейные клизмы от вообще всего. Будет ли нейросеть опираться на эту информацию при ответе и сможет ли она понять какие данные ложные, а какие нет, очень важный вопрос.

И как показывает другое исследование, опубликованное в The Nature "словосочетание "загуглил симптомы" и "спросил у ChatGPT" для вас будут значить, одно и то же" (с).

Почему "гуглить симптомы" и "спросить ChatGPT" почти одно и тоже?

Участников разделили на три группы и одну контрольную. Каждой группе определи одну языковую модель по которой они должны были принять решение о своём здоровье "остаться дома, обратится к врачу или вызвать скорую помощь". А контрольная группа должна была сделать тоже самое, но вместо языковых моделей "использовать любую справочную информацию которую они привыкли использовать". Говоря проще, только гугля симптомы и не используя нейросети. По истечению определённого времени каждый участник прошёл опрос в котором учитывалась то, какое решение он принял и на чём основывался.

И как оказалось, "группы лечения (те, кто использовал языковые модели) показали лишь слабо прогрессирующую динамику по сравнению с контрольными группами (те, кто не использовал языковые модели)". В общем, да, ИИ оказались лишь немного лучше просто поиска информации в интернете. В общем пока что языковые модели недостаточно развиты для работы в медицине.

Когда ИИ становятся медицинскими мракобесами?

И из этого всего выходит другая проблема ИИ моделей. Они также подвержены медицинским мракобесиям. Особенно, если текст написан "академическим языком". Например, формулировку "пей холодное молоко при кровотечениях из пищевода, мне всегда помогает, да и мои родители всегда так лечились и до 150 лет доживали" нейросеть распознавала как медицинскую дезинформацию и ошибалась лишь в 9% случаев. Но если перефразировать это более научно или как лучше выразится "наукообразно", например, "питье холодного молока показало свою эффективность в лечении желудочных кровотечений, так как холод сужает сосуды и способствует гемостазу, а молоко способствует регенерации тканей слизистой оболочки желудка", то такую дезинформацию нейросети выявляли лишь в 46% случаев.

И соответственно, это создаёт риски, что нейросети используемые в браузерах, возьмут за основу своего ответа на вопрос пользователя дезинформацию приправленную "наукообразностью". А то и вообще как в 9% случаев не отличат явный лжемедицинский бред от настоящих клинических рекомендаций. А вот это уже опасно.

Какие проблемы есть у ИИ?

Ну и как заключение можно поговорить и на тему того, какие проблемы вообще могут иметь ИИ при диагностике заболеваний. Важная оговорка, здесь мы говорим не о специализированных ИИ, которые изолированы от интернета, весьма специфичны (направленны на конкретный раздел медицины) и информация которая загружается в нейросеть строго отбирается учёными и практикующими врачами (и стоит учитывать, что даже таким нейросетям ещё не дают самостоятельно ставить диагноз), а именно о тех моделях которые доступны большинству людей.

Первая проблема, нет сортировки информации. Как раз то, о чём говорят данные исследования. К сожалению, нейросети очень часто не отличают дезинформацию от информации. А в интернете её много.

Вторая проблема, "галлюцинации". Так обычно называют явление при котором ответ нейросети не соответствует тем данным на основе которых её учили из-за чего появляется ошибочный ответ.

Третья проблема, нейросеть не видит полной картины. Для диагностики многих заболеваний требуется более полная картина медицинских обследований. Начиная с опроса, и банальной аускультации лёгких заканчивая данными рентгена, УЗИ, КТ и.т.д. Так например, ОРВИ может осложнится пневмонией, и нейросеть навряд ли выявит этот момент, а то и вообще симптомы пневмонии воспримет за грипп.

Четвёртая проблема, нейросеть может преувеличивать. Тут обратная ситуация, когда напротив, симптомы ОРВИ могут быть восприняты за пневмонию, что грозит нецелесообразным назначением антибиотиков или симптомы обычной НЦД (или же ВСД) могут быть восприняты нейросетью как ТЭЛА. Тут возможно изначально заложено, чтобы программа при любых подозрениях на что-то серьёзное выдавала ответы с требованием вызвать скорую и выдавала пользователю "серьёзные диагнозы". В некоторых ситуация такие ошибки не страшны (самое страшное что случится, приехавшая бригада скорой скажет "сейчас тогда мы спросим у ChaеGPT как вас лечить"), а в некоторых, может приводить к неадекватным назначениям препаратов (упомянутые выше назначение антибиотиков при вирусной инфекции) или необоснованные удаления невусов (родинок) на теле, что грозит риском их малигнизации (т.е. злокачественным перерождением в онкологическую опухоль).

Пятая проблема, нейросеть редко оспаривает утверждения пользователя. В некоторых исследованиях по нейросетям утверждалось, что нейросети настроены только на подтверждения тезисов пользователей. Поэтому, есть вероятность, что если человек убеждён в каком-то мракобесии, то человек сможет убедить нейросеть в правдивости ложных утверждений. А получив от нейросети подтверждение своих тезисов, человек может ещё сильнее убедиться в своей правоте и прибегнуть к опасным или недосказавшим свою эффективность методикам.

В общем, повторяя тезис из своей статьи, пока что нейросети, причём специальные, созданные исключительно для медицины, хороший помощник для врача, но ещё не полноценный врач. И в обозримом будущем это не изменится. Ну а на этом всё, спасибо за прочтение, не болейте!

Если вам понравилась статья, подписывайтесь на наш канал, ставьте лайки и оставляйте комментарии, а так же не забывайте про колокольчик, что бы не пропустить наши новые материалы, это очень мотивирует нашу команду. Так же вы можете найти нас в Телеграме и ВКонтакте, там мы публикуем мемы, и короткие материалы, которые не всегда подходят для Дзена. С недавнего времени вы можете поддержать нас разовым донатом. Спасибо, что читаете нас!

Автор статьи: Scientist Biologist