Найти в Дзене
DigEd

Модели ИИ, которым вводят данные, сгенерированные ИИ, быстро выдают чепуху

Оглавление
Все более искаженные изображения, созданные моделью искусственного интеллекта, обученной на данных, полученных с помощью предыдущей версии модели. Авторы: M. Boháček & H. Farid/arXiv (CC BY 4.
Все более искаженные изображения, созданные моделью искусственного интеллекта, обученной на данных, полученных с помощью предыдущей версии модели. Авторы: M. Boháček & H. Farid/arXiv (CC BY 4.

Исследователи давали последовательным версиям большой языковой модели информацию, созданную предыдущими поколениями ИИ, — и наблюдали быстрый крах.

Автор Элизабет Гибни

Исследование показало, что обучение моделей искусственного интеллекта (ИИ) на тексте, сгенерированном ИИ, быстро приводит к тому, что модели начинают выдавать чепуху. Это каннибалистическое явление, называемое коллапсом модели, может остановить совершенствование больших языковых моделей (LLM), поскольку у них заканчиваются данные для обучения, полученные от человека, и поскольку все больше текстов, сгенерированных ИИ, проникают в Интернет.

«Смысл в том, что мы должны быть очень осторожны с тем, что попадает в наши данные для обучения», — говорит соавтор Захар Шумайлов, исследователь ИИ из Кембриджского университета, Великобритания. В противном случае «все всегда, как доказано, будет идти не так», — говорит он. Команда использовала математический анализ, чтобы показать, что проблема коллапса модели, скорее всего, универсальна, затрагивая все размеры языковых моделей, которые используют необработанные данные, а также простые генераторы изображений и другие типы ИИ.

Исследователи начали с использования LLM для создания записей, подобных Википедии, затем обучили новые итерации модели на тексте, созданном ее предшественником. Поскольку информация, сгенерированная ИИ — известная как синтетические данные — загрязняла обучающий набор, выходные данные модели становились бессмыслицей. Девятая итерация модели завершила статью в стиле Википедии об английских церковных башнях с трактатом о многоцветности хвостов зайцев (см. «Беспорядок ИИ»).

Что еще тоньше, исследование, опубликованное в Nature 24 июля, показало, что даже до полного коллапса обучение на текстах, полученных с помощью ИИ, заставляло модели забывать информацию, упоминаемую реже всего в их наборах данных, поскольку их выходные данные становились более однородными.

Это вызывает беспокойство, когда речь идет о создании моделей ИИ, которые справедливо представляют все группы, поскольку маловероятные события часто связаны с маргинализированными группами, говорит соавтор исследования Илья Шумайлов, работавший над проектом во время работы в Оксфордском университете, Великобритания. «Это фантастическая работа», — говорит Джулия Кемпе, специалист по информатике из Нью-Йоркского университета в Нью-Йорке. До сих пор многие технологические компании улучшали свои модели, предоставляя им все большие и большие объемы данных. Но по мере того, как человеческий контент заканчивается, они надеются использовать синтетические данные для дальнейшего совершенствования. Исследование, версия которого впервые появилась на сервере препринтов arXiv в мае 2023 года, подтолкнуло сообщество ИИ к поиску решений этой проблемы, говорит она. «Это был призыв к оружию».

Вы — то, что вы едите

Языковые модели работают, создавая ассоциации между токенами — словами или частями слов — в огромных полосах текста, часто взятых из Интернета. Они генерируют текст, выдавая статистически наиболее вероятное следующее слово на основе этих изученных шаблонов.

Чтобы продемонстрировать коллапс модели, исследователи взяли предварительно обученную LLM и настроили ее, обучив ее с помощью набора данных на основе записей Википедии. Затем они попросили полученную модель сгенерировать собственные статьи в стиле Википедии. Чтобы обучить следующее поколение модели, они начали с той же предварительно обученной LLM, но настроили ее на статьях, созданных ее предшественником. Они оценивали производительность каждой модели, давая ей вступительный абзац и прося ее предсказать следующие несколько предложений, а затем сравнивая вывод с выводом модели, обученной на реальных данных. Команда ожидала появления ошибок, говорит Шумайлов, но была удивлена, увидев, что «все очень быстро пошло не так», говорит он. Коллапс происходит, потому что каждая модель обязательно делает выборку только из тех данных, на которых она обучалась. Это означает, что слова, которые были редкими в исходных данных, с меньшей вероятностью будут воспроизведены, а вероятность повторения распространенных слов увеличивается. Полный коллапс в конечном итоге происходит, потому что каждая модель учится не на реальности, а на предсказании реальности предыдущей моделью, при этом ошибки усиливаются с каждой итерацией. «Со временем эти ошибки накладываются друг на друга, до такой степени, что модель в основном учится только ошибкам и ничему больше», — говорит Шумайлов.

Источник