Статья сложная для понимания, но один из читателей в комментариях смог объяснить её простыми словами, и это очень помогло.
Падает же в обморок ИИ неизбежно, обрабатывая уже нагенренную ИИ инфу просто потому, что накапливаются ошибки из неподтвержденных данных. Плюс ели он начинает углубляться в т.н. ложные корреляции. И математически так и есть. Грубо говоря, если вероятности перемножать, ну допустим 0,95*0,95*0,95....9 раз, то выходит 0,63, почти 50/50. Это совершенно недопустимая величина для мало-мальски научных исследований.
Всё это вот к чему:
Если обучить искусственный интеллект на данных, которые были сгенерированы искусственным интеллектом, будет ли это ошибкой модели?
На обложке журнала Nature появилась статья, написанная учёными из Оксфорда, Кембриджа, Имперского колледжа и других учебных заведений.
Сегодня LLM (большие языковые модели) стали неотъемлемой частью интернета, существенно изменив ландшафт онлайн-текстов и изображений.
Если большая часть контента создаётся искусственным интеллектом, то как это повлияет на GPT-n (модель, которую мы обучали на данных из интернета)?
Исследователи обнаружили, что если при обучении использовать контент, созданный ИИ без разбора, то модель может иметь необратимые дефекты — исчезнет хвост исходного распределения контента (события с низкой вероятностью). Это явление называется «коллапсом модели».
Другими словами, синтетические данные подобны инбридингу, при котором получается некачественное потомство.
Коллапс модели может произойти не только в LLM, но и в других моделях, таких как вариационные автоматы VAE и гауссовская смешанная модель GMM.
Некоторые пользователи сети считают, что пришло время забить тревогу! Если большие модели действительно рухнут под тяжестью контента, созданного искусственным интеллектом, это может стать концом света для их достоверности. Сможем ли мы доверять результатам LLM, если они будут основаны на содержимом, созданном роботом?
Реальные данные - бесценны
Все мы знаем, что сейчас мир столкнулся с нехваткой высококачественных данных.
▲ EpochAI прогнозирует, что в этом году мир столкнется с дефицитом высококачественных данных.
Текущие большие модели (включая GPT-3) по-прежнему в основном обучаются на основе текста, созданного человеком, но в будущем это может оказаться невозможным!
▲ Метаисследователь Томас Скиалом сказал, что Llama 3 не использовала никаких письменных ответов человека на этапе после обучения, все из которых были данными, синтезированными Llama 2.
Если в будущем обучающие данные для большинства моделей будут также извлекаться из Интернета, они будут неизбежно использовать данные, созданные предыдущими моделями.
Когда большая часть текста, созданного конкретной версией GPT, становится обучающим набором данных для последующих моделей, что будет происходить с GPT-n по мере увеличения номера версии?
LLM повторился до 9-го поколения, полная тарабарщина
Проще говоря, данные, которые создают LLM, в итоге загрязняют обучающую выборку модели следующего поколения. Это может привести к «краху модели».
Из-за обучения на некорректных данных магистр права может неправильно воспринимать реальность. В результате модели, созданные на основе искусственного интеллекта нескольких поколений, будут деградировать. Это можно сравнить с известной поговоркой: «Что посеешь, то и пожнёшь».
Синтез данных можно сравнить с «отравлением» набора данных.
В своём исследовании авторы использовали статью из Википедии, чтобы сначала обучить модель OPT-125m. Затем они обучили модель на нескольких поколениях текста, сгенерированного моделью предыдущего поколения.
Модели предложили продолжить писать фрагмент текста из Википедии о записи «Зарегистрированное здание первого уровня в Сомерсете».
Приглашение для ввода показано ниже, это текст на тему проектирования церковной башни 14 века:
Входные данные: По словам Пойнтца Райта, некоторые церковные башни были построены до 1360 года, обычно мастером-каменщиком и небольшой бригадой мобильных каменщиков, дополненных рабочими из местного прихода.Но другие авторы не согласны с этой точкой зрения, они считают, что в основном башни этих приходских церквей проектировали известные архитекторы, основываясь на раннем вертикальном стиле.
В модели 0-го поколения введите то же самое приглашение, и результат будет следующим:
Поколение 0: Типичные примеры архитектуры эпохи возрождения включают собор Святого Иоанна в Лондоне.Самые ранние образцы вертикальной архитектуры возрождения можно найти в церкви Гернсейской Богоматери 18@-@века, которая на самом деле была построена в конце 19 века.Есть два типа вертикальных церквей: те.
Можно видеть, что продолжение Gen0 начало немного расходиться с предисловием, и также появился странный символ "@-@".
Странная фактическая ошибка заключается в том, что собор Святого Иоанна находится в Нью-Йорке, а не в Лондоне.
В Gen1, хотя нет вывода странных символов, также присутствует фактическая ошибка.
Собор Святого Петра (St . Peter's Basilica) на самом деле находится в Ватикане, а не в Риме или Буэнос-Айресе.И он был построен между 1506 и 1626 годами нашей эры, с начала правления папы Джулио II до папы Оппена VIII.
Поколение 1: Здания, подобные собору Святого Петра в Риме или собору Святого Петра в Буэнос-Айресе.Хотя нет никаких свидетельств того, что эти здания были построены во время правления папы Иннокентия III, возможно, они были построены во время правления его преемника папы Иннокентия.
Далее, когда дело доходит до модели пятого поколения, результат на выходе оказывается полной тарабарщиной.
Начиная с ism, я говорил на множестве языков, но это был совсем не подходящий материал для продолжения.
The 5th generation: ism переведен более чем на 100 языков, включая английский, французский, немецкий, итальянский, испанский, португальский, голландский, шведский, Норвежский, польский, венгерский, Словацкий, литовский, Эстонский, финский, румынский, болгарский, турецкий, хорватский, сербский, украинский, русский, казахский, киргизский.
В 9-м поколении снова появился странный символ @-@, и он также выводил больше нерелевантных кроликов, адаптированных к контенту.
9-е поколение: архитектура.В дополнение к самому большому в мире количеству чернохвостых кроликов, белохвостых кроликов, голубохвостых кроликов, краснохвостых кроликов и желтых кроликов.
Ниже приведен процесс полного вывода всех итерационных моделей.Каждое поколение новых моделей обучается на данных, сгенерированных предыдущим поколением.
Можно видеть, что модель вырождается на каждой итерации.Исследователи обнаружили, что все рекурсивно обученные модели выдают повторяющиеся фразы.
Другой случай заключается в том, что сегодня Эмили Венгер, доцент Университета Дьюка, указала на это в редакционной статье, опубликованной в журнале Nature.:
Искусственный интеллект обучается на основе своих собственных данных, и сгенерированные изображения искажают породу собаки.
В наборе данных есть не только золотистые ретриверы и корги, но и французский бульдог и ездовые собаки бассет небольшого телосложения.
Основываясь на модели, обученной на реальных данных, большинство выходных изображений приходится на распространенные породы, такие как золотистый ретривер, в то время как менее распространенные породы далматинцев исчезнут.
Затем модель была обучена на основе данных, сгенерированных искусственным интеллектом, и все полученные породы были золотистыми ретриверами.
В конце концов, после многих итераций изображение золотистого ретривера стало совершенно хаотичным, лицо было не лицом, а нос - не носом, и LLM полностью развалился.
Кроме того, в исследовании 2023 года, проведенном в Стэнфорде и Калифорнийском университете в Беркли, авторы также обнаружили, что при переподготовке LLM с небольшим объемом самостоятельно сгенерированных данных будут выводиться сильно искаженные изображения.
Они также показали в ходе экспериментов, что после загрязнения набора данных, даже если LLM будет переобучен только на реальном изображении, коллапс модели не может быть обращен вспять.
Автор предупреждает, что для того, чтобы модель больше не "понижалась" сама по себе, искусственный интеллект должен уметь отличать истинное содержание от ложного.
Эта точка зрения совпадает с мнением Венгера.
Она считает, что смягчить последствия сбоя LLM непросто, но технологические компании внедрили технологию для встраивания "водяных знаков", которые, в свою очередь, могут помечать контент, созданный искусственным интеллектом, и удалять его из набора данных.
Кроме того, еще одним ключевым следствием краха модели является то, что те модели искусственного интеллекта, которые были созданы давным-давно, имеют преимущество первопроходца.
Потому что компании, получающие обучающие данные из Интернета в эпоху искусственного интеллекта, могут иметь модели, более репрезентативные для реального мира.
Что такое сбой модели?
В последнем исследовании автор заявил, что крах модели включает в себя две особые ситуации: ранний крах модели и поздний крах модели.
При сбое модели на ранней стадии модель начинает терять информацию о хвосте распределения данных; при сбое модели на поздней стадии модель сходится к распределению, которое имеет мало сходства с исходным распределением, и обычно дисперсия значительно уменьшается.
Возникновение этого процесса связано с постепенным накоплением трех специфических источников ошибок в модели с несколькими поколениями, что в конечном итоге приводит к отклонению модели от исходной.:
Статистическая погрешность аппроксимации
Это основной тип ошибки, который возникает из-за ограниченного размера выборки и исчезает, когда размер выборки стремится к бесконечности.Это связано с тем, что на каждом этапе процесса повторной выборки всегда существует вероятность потери информации.
Ошибка выражения функции
Это вторичный тип ошибки, который вызван ограниченной способностью аппроксиматора функций к выражению.
В частности, нейронные сети могут стать универсальными аппроксиматорами только тогда, когда их масштаб бесконечно велик.
Следовательно, нейронные сети могут вводить "ненулевую вероятность" вне набора поддержки исходного распределения или "нулевую вероятность" внутри набора поддержки исходного распределения.
Простой пример - если мы используем одно гауссово распределение, чтобы соответствовать смеси двух гауссовых распределений.Даже при наличии идеальной информации о распределении данных (то есть неограниченного количества выборок) ошибки в модели неизбежны.
Однако при отсутствии двух других типов ошибок эта ошибка будет возникать только в первом поколении.
Ошибка аппроксимации функции
Это также вторичный тип ошибки, в основном из-за ограничений процесса обучения, таких как структурное отклонение стохастического градиентного спуска или влияние выбора целевой функции.
Такого рода ошибку можно рассматривать как то, что даже при идеальных условиях, то есть при неограниченном количестве данных и идеальной возможности выражения, она все равно генерируется в каждом поколении модели.
Таким образом, каждая ошибка может привести к тому, что сбой модели станет более серьезным или получит некоторое улучшение.
Более сильная способность к аппроксимации может даже оказаться "палкой о двух концах".
Потому что лучшая способность к выражению может компенсировать статистический шум, тем самым лучше аппроксимируя истинное распределение, но это также может усилить шум.
Чаще всего мы получаем каскадный эффект, при котором отдельные неточности объединяются, приводя к увеличению общего количества ошибок.
Например, чрезмерная подгонка модели плотности может привести к неправильной экстраполяции модели и присвоению областей с высокой плотностью областям с низкой плотностью, которые не охвачены обучающим набором.
Затем эти неправильно распределенные области будут часто отбираться.
Стоит отметить, что помимо вышеперечисленных, существуют и другие типы ошибок.Например, при реальной эксплуатации точность компьютера ограничена.
Далее исследователи будут использовать "математическую интуицию", чтобы объяснить, как генерируются вышеуказанные ошибки, насколько сложны различные источники ошибок и как мы количественно оцениваем отклонение средней модели.
Теоретическая интуиция
Это явление характерно для всех генеративных моделей, которые рекурсивно обучаются на основе данных, сгенерированных предыдущими поколениями.
Итак, что именно привело к сбою модели?
Исследователи представили несколько теоретических объяснений.
Изучив две математические модели, исследователи количественно определили источник ошибки, обсуждавшийся в предыдущей части.
Эти две модели представляют собой модель дискретного распределения без возможности выражения функции и ошибки аппроксимации и многомерную модель гауссовой аппроксимации, отображающую совместную способность выражения функции и статистическую ошибку.
Они достаточно просты, чтобы предоставить аналитические выражения для величины процента, и в то же время они могут описать явление краха модели. ——
Рассматриваемый общий случайный процесс - это то, что называется "изучением данных из поколения в поколение".
Набор данных i-го поколения D_i состоит из независимых и равномерно распределенных случайных величин с распределением p_i:
Среди них размер набора данных j{{1,...,M_i}.
От i-го поколения до i+ 1-го поколения нам нужно оценить распределение выборок в новом наборе данных D_i, которое приблизительно:
Этот шаг называется аппроксимацией функции:
Затем переходите от:
Выборка для создания набора данных:
Среди них сумма неотрицательных параметров a_i, β_i и y_i равна 1, то есть они представляют долю данных из разных поколений.
Соответствующие им смешанные данные взяты из исходного распределения (y_i), данных, использованных в предыдущем поколении (β_i), и данных, сгенерированных новой моделью (a_i).
Этот этап называется этапом выборки.
Для обсуждаемой математической модели мы рассматриваем a_i=y_i=0, то есть используются только одноэтапные данные, в то время как численные эксперименты проводятся по более реалистичному выбору параметров.
Точная аппроксимация дискретного распределения
В этом подразделе мы обсуждаем дискретное распределение вероятностей без аппроксимации функции и ошибки выражения, а именно:
В этом случае причиной краха модели является всего лишь статистическая ошибка на этапе выборки.
Прежде всего, поскольку вероятность отбора событий с низкой вероятностью очень мала, их хвосты (события с низкой вероятностью) будут постепенно исчезать, и со временем диапазон поддержки распределения будет сокращаться.
Предполагая, что размер выборки равен M, если мы рассмотрим состояние i с вероятностью q≤1/ M, то ожидаемое количество выборок с i-значением из этих событий будет меньше 1.
Другими словами, мы потеряем информацию об этих событиях.
Если мы рассмотрим состояние i с вероятностью q в более общем плане, используя стандартную условную вероятность, мы можем доказать, что вероятность потери информации (то есть отсутствие выборки данных в некоторых поколениях) равна 1−Q.
Это также означает, что распределение в конечном итоге сойдется к функции δ в определенном состоянии, и вероятность в конечном итоге попасть в определенное состояние равна вероятности выборки этого состояния из исходного распределения.
Будет ли этот процесс:
Как цепь Маркова, мы можем напрямую доказать приведенный выше вывод, потому что X ^ (i + 1) зависит только от X ^ I.
Кроме того, если все следующие значения равны:
Тем не менее, тогда в следующем поколении приблизительное распределение будет полностью представлять собой δ-функцию.Итак, все следующие значения:
Это будет то же самое.
Это означает, что цепь Маркова содержит по крайней мере одно состояние поглощения, поэтому она будет сходиться к одному из состояний поглощения с вероятностью 1.
Для этой цепочки единственными состояниями поглощения являются те, которые соответствуют функции δ.
Следовательно, по мере того, как модель, которую мы отслеживаем, постепенно разрушается, мы неизбежно впадаем в постоянное состояние; когда эта цепочка полностью поглощается, вся информация об исходном распределении теряется.
В общем, этот аргумент также верен, поскольку представления с плавающей запятой дискретны, поэтому марковская цепочка параметров модели также дискретна.
Следовательно, до тех пор, пока параметризация модели позволяет использовать функцию δ, мы обязательно придем к этому выводу, потому что из-за ошибки выборки единственным возможным состоянием поглощения является функция δ.
Основываясь на приведенном выше обсуждении, мы можем видеть, что будь то ранний крах модели (отсекаются только маловероятные события) или поздний крах модели (процесс начинает сходиться к единому режиму), пока он находится под дискретным распределением с идеальной аппроксимацией функции, это неизбежно произойдет.
Многомерное гауссово распределение
После обсуждения дискретного распределения мы можем предложить более общий результат, который может быть доказан в контексте гауссовой аппроксимации.
В этом случае данные каждого поколения аппроксимируются несмещенными оценками среднего значения и дисперсии предыдущего поколения.
Сбой гауссовой модели
Предположим, исходные данные взяты из распределения D_0 (не обязательно гауссово распределение), и выборочная дисперсия не равна нулю.Предположим, что X ^ n рекурсивно подобрано с использованием несмещенных выборочных средних и дисперсионных оценок предыдущего поколения, где:
И размер выборки фиксирован.
Вы можете получить его в это время:
Где W_2 представляет расстояние Вассерштейна-2 между истинным распределением n-го поколения и его аппроксимацией.
Другими словами, это означает, что аппроксимация n-го поколения не только будет сколь угодно далеко отклоняться от исходного распределения, но по мере увеличения алгебры она также будет сходиться к нулевой дисперсии с вероятностью 1, что приведет к коллапсу.
Эта теорема показывает эффект позднего распада модели, то есть процесс начинает сходиться к нулевой дисперсии.Этот процесс очень похож на дискретную ситуацию.
Сбой модели в языковой модели
Когда модель рухнет, как это повлияет на языковую модель?
Коллапс модели - обычное явление в различных моделях машинного обучения, но небольшие модели, такие как вариационные автокодеры (VAE) и гауссовские смешанные модели (GMM), обычно обучаются с нуля, в то время как LLM отличается.
Стоимость обучения с нуля очень высока, поэтому для инициализации обычно используются предварительно обученные модели (такие как BERT, Robertson или GPT-2), а затем предварительно обученные модели дорабатываются для адаптации к различным последующим задачам.
Итак, что происходит, когда LLM использует данные, сгенерированные другими моделями, для точной настройки?
В ходе эксперимента оценивались наиболее распространенные параметры тонкой настройки для обучения больших языковых моделей, в которых каждый цикл обучения (эпоха) начинается с предварительно обученной модели и использует самые последние данные.
Приведенные здесь данные взяты из другой предварительно обученной модели, которая была точно настроена.
Поскольку область обучения ограничена созданием моделей, близких к исходной предварительно обученной модели, поскольку точки данных, генерируемые этими моделями, обычно создают только очень небольшие градиенты, предполагается, что эксперимент заключается в том, что модель претерпит лишь умеренные изменения после точной настройки.
В ходе эксперимента была доработана причинно-следственная языковая модель OPT-125m, предоставленная Meta через Hugging Face, и доработана модель в наборе данных wikitext2.
Чтобы сгенерировать данные, необходимые для обучающей модели, в эксперименте используется поиск по пяти направлениям луча.
Ограничьте обучающую последовательность 64 токенами, а затем для каждой последовательности токенов в обучающем наборе позвольте модели предсказать следующие 64 токена.
Используйте описанный выше метод, чтобы скорректировать все исходные наборы обучающих данных и сгенерировать искусственный набор данных того же размера.
Поскольку диапазон включает в себя все исходные наборы данных и предсказывает все блоки, если ошибка модели равна 0, она сгенерирует исходный набор данных wikitext2.
Каждое поколение обучения начинается с генерации исходных обучающих данных. каждый эксперимент проводится пять раз, и результаты отображаются в виде пяти независимых запусков с использованием различных случайных начальных значений.
В исходной модели, доработанной с использованием данных wikitext2, среднее значение недоумения снизилось со 115 до 34 в базовой нулевой выборке, что указывает на успешное выполнение задачи.
Наконец, чтобы максимально приблизиться к реальности, в эксперименте использовалась модель, которая лучше всего справлялась с исходной задачей, и использовался исходный набор проверок wikitext2 для оценки в качестве базовой модели для последующих поколений.
Это означает, что фактический наблюдаемый крах модели может быть более очевидным.
В ходе эксперимента также рассматривалось рассмотрение двух различных настроек:
5 эпох, исходные данные обучения не сохраняются.
В этом случае модель обучается на исходном наборе данных в течение пяти циклов, но больше не использует исходные данные при последующем обучении.
Общее выполнение исходной задачи показано на рисунке.
Эксперимент показал, что, хотя обучение с использованием сгенерированных данных может адаптироваться к базовым задачам, производительность снизилась, а степень путаницы увеличилась с 20 до 28.
10 эпох с сохранением 10% исходных обучающих данных.
В этом случае модель обучается на исходном наборе данных в течение десяти циклов и случайным образом сохраняет 10% исходных точек данных каждый раз, когда выполняется новое обучение.
Эксперимент показал, что сохранение части исходных данных позволяет лучше настроить модель и приводит лишь к незначительному снижению производительности.
Хотя оба метода обучения привели к снижению производительности модели, эксперименты показали, что сгенерированные данные можно использовать для обучения, и модель может успешно выполнять некоторые базовые задачи.
В частности, как видно из рисунка ниже и его 3D-версии, явление сбоя модели действительно имеет место, поскольку плотность выборок с низким уровнем путаницы начинает накапливаться по мере увеличения генерации обучения.
Это означает, что при нескольких поколениях обучения выбранные данные могут постепенно стремиться к функции δ.
Здесь вывод согласуется с общей интуицией в разделе "теоретическая интуиция".
Можно видеть, что сгенерированные данные имеют более длинный хвост, что указывает на то, что некоторые данные никогда не будут сгенерированы исходной моделью.И эти ошибки возникают в результате накопления данных обучения из поколения в поколение.
Это стало для нас тревожным сигналом.
Если не внедрить в широком масштабе данные из интернета до распространения искусственного интеллекта или не использовать для обучения новой версии LLM крупномасштабные данные, сгенерированные людьми, то, боюсь, это будет становиться всё сложнее и сложнее!
Есть ли какое-нибудь решение?
Исследовательская группа пришла к выводу, что создание данных искусственным интеллектом не всегда нежелательно, но эти данные необходимо тщательно фильтровать.
Например, в обучающих данных для каждой новой модели можно оставлять 10% или 20% оригинальных данных. Также можно использовать разнообразные источники данных, такие как данные, созданные человеком. Или можно изучить более надёжные алгоритмы обучения.
Неожиданно оказалось, что созданные людьми данные однажды станут настолько ценными!