1918 подписчиков

Плохие боты-учителя могут оставлять скрытые следы на идеальных моделях

15 апреля15 апр

2 мин

Исследование показало, что LLM могут незаметно передавать предвзятости другим моделям, даже если они были очищены из обучающих данных. — theregister.com Новое исследование предупреждает об опасностях обучения больших языковых моделей (LLM) на результатах работы других моделей, показывая, что нежелательные черты могут передаваться «подсознательно» от модели-учителя к модели-ученику, даже если они удалены из обучающих данных. Исследование, прошедшее рецензирование и проведенное исследователями из Anthropic, продемонстрировало, что LLM могут передавать негативные черты «ученическим» моделям, даже когда свидетельства этих черт были удалены из переданных обучающих данных. Использование LLM для обучения других моделей становится все более популярным. Этот процесс, называемый дистилляцией, обусловлен тем, что «у разработчиков заканчиваются обучающие данные, а запуск более крупных моделей обходится дороже и требует больше времени для ответа пользователям», по словам Оскара Холлинсворта и Сэмюэ

Исследование показало, что LLM могут незаметно передавать предвзятости другим моделям, даже если они были очищены из обучающих данных. — theregister.com

Новое исследование предупреждает об опасностях обучения больших языковых моделей (LLM) на результатах работы других моделей, показывая, что нежелательные черты могут передаваться «подсознательно» от модели-учителя к модели-ученику, даже если они удалены из обучающих данных.

Исследование, прошедшее рецензирование и проведенное исследователями из Anthropic, продемонстрировало, что LLM могут передавать негативные черты «ученическим» моделям, даже когда свидетельства этих черт были удалены из переданных обучающих данных.

Использование LLM для обучения других моделей становится все более популярным. Этот процесс, называемый дистилляцией, обусловлен тем, что «у разработчиков заканчиваются обучающие данные, а запуск более крупных моделей обходится дороже и требует больше времени для ответа пользователям», по словам Оскара Холлинсворта и Сэмюэла Бауэра из некоммерческой организации FAR.AI, занимающейся исследованиями и образованием в области ИИ.

Они отмечают, что исследование, опубликованное на этой неделе в научном журнале Nature, выявляет плохо изученную область риска в разработке ИИ.

Исследователь Anthropic Алекс Клауд и его коллеги использовали GPT-4.1 nano в качестве эталонной модели, побуждая «учителя» отдавать предпочтение определенным животным или деревьям. Затем они использовали числовые результаты работы этого учителя для обучения «ученической» модели. При тестировании на естественном языке ученик выбирал предпочтительное для учителя животное или дерево значительно чаще, чем базовая модель до обучения — для сов этот показатель вырос с 12 процентов до более чем 60 процентов. В статье сообщается о схожих эффектах, когда обучающие данные состоят из кода или следов рассуждений по цепочке мыслей, а не из чисел.

«В своих экспериментах авторы обнаружили, что передача нежелательного поведения может сохраняться даже тогда, когда набор данных был отфильтрован для удаления прямых ссылок на эту черту и когда контент был семантически не связан. Они ввели термин „подсознательное обучение“ для этого явления», — заявили Холлинсворт и Бауэр.

«Механизм подсознательного обучения еще не до конца понятен, но, похоже, что результаты работы учителя содержат тонкие статистические сигнатуры, которые улавливаются учеником, заставляя его имитировать поведение учителя, даже если оно не присутствует напрямую в обучающих данных».

Исследователи Anthropic заявили, что системы ИИ все чаще обучаются на результатах работы друг друга, и их исследование показывает, что унаследованные свойства могут быть невидимы в обучающих данных.

«Таким образом, оценки безопасности могут потребовать изучения не только поведения, но и происхождения моделей и обучающих данных, а также процессов, использованных для их создания», — говорится в статье. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Lindsay Clark

Оригинал статьи