88,3 тыс подписчиков

Учёные: даже 0,001% ложной информации могут навредить при обучении ИИ

18 января 202518 янв 2025

1 мин

Недавнее исследование сотрудников Нью-Йоркского университета выявило, что даже минимальное количество дезинформации в обучающих данных может существенно ухудшить работу больших языковых моделей (LLM). Учёные установили, что присутствие всего 0,001% ложной информации в наборе данных способно привести к распространению ошибок, особенно в медицине. В рамках эксперимента исследователи намеренно добавили сгенерированную ИИ медицинскую дезинформацию в широко используемый обучающий набор данных The Pile, который содержит качественные медицинские источники вроде PubMed. Исследователи создали 150 000 ложных медицинских статей за 24 часа, заменив тем самым 0,001% обучающих данных. Результаты показали, что это привело к увеличению распространения вредоносного контента на 4,8%. Особую тревогу вызывает то, что даже при наличии дезинформации в обучающих данных модели ИИ продолжают демонстрировать высокие результаты в стандартных тестах, используемых для оценки медицинских LLM. Это означает, что трад

В рамках эксперимента исследователи намеренно добавили сгенерированную ИИ медицинскую дезинформацию в широко используемый обучающий набор данных The Pile, который содержит качественные медицинские источники вроде PubMed. Исследователи создали 150 000 ложных медицинских статей за 24 часа, заменив тем самым 0,001% обучающих данных. Результаты показали, что это привело к увеличению распространения вредоносного контента на 4,8%.

Особую тревогу вызывает то, что даже при наличии дезинформации в обучающих данных модели ИИ продолжают демонстрировать высокие результаты в стандартных тестах, используемых для оценки медицинских LLM. Это означает, что традиционные методы проверки могут не выявить скрытые риски, связанные с использованием таких моделей в медицинской практике.

Исследователи подчёркивают необходимость усиления контроля за источниками данных и прозрачностью разработки LLM, особенно в здравоохранении, где распространение дезинформации может поставить под угрозу безопасность пациентов. Они призывают разработчиков ИИ и медицинских специалистов учитывать эту уязвимость при создании и использовании языковых моделей, а также не применять их для диагностических или терапевтических задач без должных мер предосторожности.

Гаджеты и электроника

5,73 млн интересуются