263,4 тыс подписчиков

Слишком много соцсетей вызывает «гниение мозга» даже у ИИ — исследование

1 ноября 20251 ноя 2025

2 мин

Исследователи предупреждают: большие языковые модели начинают хуже рассуждать и чаще выдавать ошибки, если обучаются на больших объемах низкокачественного контента — особенно популярного в социальных сетях. Об этом говорится в работе, опубликованной на сервере препринтов arXiv, сообщает служба новостей Nature. Ученые из Техасского университета в Остине изучили влияние «мусорных» данных — коротких поверхностных постов, сенсационных материалов — на поведение ИИ. Анализ касался способности моделей извлекать информацию из длинных текстов, логики ответов, этики и проявления моделью «личностных черт». Выяснилось, что чем больше доля таких данных в обучении, тем чаще модели пропускают логические шаги и дают неправильные ответы, в том числе при тестах с выбором варианта. Руководитель исследования Чжанъян Ван напоминает старый принцип инженеров ИИ: «мусор на входе — мусор на выходе». Новый анализ лишь подтверждает важность отбора данных. Ученые использовали миллион публичных постов из популярно

Ученые из Техасского университета в Остине изучили влияние «мусорных» данных — коротких поверхностных постов, сенсационных материалов — на поведение ИИ. Анализ касался способности моделей извлекать информацию из длинных текстов, логики ответов, этики и проявления моделью «личностных черт».

Выяснилось, что чем больше доля таких данных в обучении, тем чаще модели пропускают логические шаги и дают неправильные ответы, в том числе при тестах с выбором варианта. Руководитель исследования Чжанъян Ван напоминает старый принцип инженеров ИИ: «мусор на входе — мусор на выходе». Новый анализ лишь подтверждает важность отбора данных.

Ученые использовали миллион публичных постов из популярной соцсети для переобучения открытых моделей Llama 3 и Qwen. Llama — модель, ориентированная на инструкции, тогда как Qwen относится к моделям рассуждений.

Влияние плохого контента на ИИ

После обучения на низкокачественных данных Llama изменила свое поведение: по результатам стандартных психологических опросников у нее снизились «позитивные» черты и усилились негативные, включая признаки нарциссизма и даже психопатии.

Попытки исправить ситуацию — например, дообучение на качественных данных или корректировка инструкций — давали лишь частичный результат. Модель все еще пропускала важные этапы рассуждения.

Эксперты считают, что такие результаты подчеркивают необходимость строгой фильтрации обучающих данных, особенно сенсационных и искаженных. Иначе ИИ-системы рискуют «деградировать», а качество их ответов — снижаться. Вопрос и о том, обратимы ли негативные изменения, если позже «докормить» модель хорошими данными, остается открытым.

Тема становится особенно актуальной на фоне новостей о том, что соцсети намерены расширять сбор пользовательского контента для обучения ИИ — например, LinkedIn с ноября планирует использовать данные европейских пользователей в своих генеративных системах.

Ученые: в будущем угрозу может представлять «отравленный» ИИ

Подсчитано, сколько газетных статей создается с помощью ИИ

Исследователи проверили качество ответов ИИ-поисковиков

Подписывайтесь и читайте «Науку» в Telegram