201 подписчик

Медицинские чат-боты могут выйти из строя из-за малейшей дезинформации

22 января 202522 янв 2025

1 мин

Исследования, проведенные учеными из Нью-Йоркского университета, показали, что медицинские языковые модели (LLM), которые активно применяются в здравоохранении, могут стать жертвами дезинформации даже в минимальных дозах. Оказавшись под воздействием лишь 0,001% ложных данных, такие системы способны начать выдавать ошибки, что может поставить под угрозу здоровье пациентов. Эксперименты, описанные в журнале Nature Medicine, показали, как незначительное вмешательство в данные для обучения языковой модели может повлиять на её работу. Исследователи внедрили созданную искусственным интеллектом медицинскую дезинформацию в популярный обучающий набор данных The Pile, включающий качественные материалы, в том числе из PubMed. Всего за сутки было сгенерировано 150 000 статей с ложной информацией, что позволило исследователям выявить серьёзную уязвимость. Оказалось, что достаточно внести всего один миллион фальшивых токенов (примерно 0,001% от 100 миллиардов) в обучающие данные модели, чтобы повыси

Оказавшись под воздействием лишь 0,001% ложных данных, такие системы способны начать выдавать ошибки, что может поставить под угрозу здоровье пациентов.

Эксперименты, описанные в журнале Nature Medicine, показали, как незначительное вмешательство в данные для обучения языковой модели может повлиять на её работу.

Исследователи внедрили созданную искусственным интеллектом медицинскую дезинформацию в популярный обучающий набор данных The Pile, включающий качественные материалы, в том числе из PubMed. Всего за сутки было сгенерировано 150 000 статей с ложной информацией, что позволило исследователям выявить серьёзную уязвимость.

Оказалось, что достаточно внести всего один миллион фальшивых токенов (примерно 0,001% от 100 миллиардов) в обучающие данные модели, чтобы повысить уровень вредоносного контента на 4,8%. Атака с такими изменениями обошлась всего в $5, что подчеркивает низкую стоимость и лёгкость её реализации. Особенно тревожно то, что заражённые модели продолжают демонстрировать хорошие результаты при стандартных тестах, маскируясь под надёжные системы. Это значит, что для нанесения ущерба не нужно взламывать сами модели — достаточно просто разместить ложные данные в интернете.

Практическое значение таких исследований уже очевидно. В прошлом году газета The New York Times сообщала о случае, когда платформа MyChart, использующая ИИ для автоматических ответов на вопросы пациентов, стала генерировать ложные записи о состоянии здоровья, что привело к ошибкам в диагностике.

Ученые настоятельно рекомендуют разработчикам и медицинским учреждениям принять меры для защиты от таких угроз. Использование языковых моделей для диагностики или терапии без надежных механизмов защиты не может быть оправдано до тех пор, пока не будут проведены дополнительные исследования по обеспечению безопасности таких систем.

Гаджеты и электроника

5,73 млн интересуются