19 подписчиков

Синтетические данные: может ли ИИ обучаться на сгенерированных примерах

25 декабря 202425 дек 2024

10 мин

🤖 Возможно ли обучать ИИ только на данных, сгенерированных другим ИИ? Эта идея становится всё более популярной, так как сбор реальных данных усложняется. 📈 Использование синтетических данных растёт: компании, такие как Anthropic и Meta, используют их для обучения своих моделей. OpenAI также использует синтетические данные для своей модели Orion. 💡 ИИ обучаются на большом количестве примеров, чтобы распознавать шаблоны и делать предсказания. Аннотации (метки) играют ключевую роль в этом процессе, обучая модель различать объекты, места и идеи. 💰 Рынок услуг по аннотации данных быстро растёт, оцениваясь в $838,2 млн сегодня и ожидается рост до $10,34 млрд в ближайшие 10 лет. Многие компании полагаются на работников для создания меток для обучения ИИ. ⏳ Однако человеческие аннотации имеют ограничения: скорость, предвзятость, ошибки и стоимость. 🌐 Данные становятся труднодоступными из-за ограничений доступа и авторских прав, что может привести к нехватке данных для обучения генеративны

Оглавление

Сперва главное:
Теперь подробнее:

Сперва главное:

🤖 Возможно ли обучать ИИ только на данных, сгенерированных другим ИИ? Эта идея становится всё более популярной, так как сбор реальных данных усложняется.

📈 Использование синтетических данных растёт: компании, такие как Anthropic и Meta, используют их для обучения своих моделей. OpenAI также использует синтетические данные для своей модели Orion.

💡 ИИ обучаются на большом количестве примеров, чтобы распознавать шаблоны и делать предсказания. Аннотации (метки) играют ключевую роль в этом процессе, обучая модель различать объекты, места и идеи.

💰 Рынок услуг по аннотации данных быстро растёт, оцениваясь в $838,2 млн сегодня и ожидается рост до $10,34 млрд в ближайшие 10 лет. Многие компании полагаются на работников для создания меток для обучения ИИ.

⏳ Однако человеческие аннотации имеют ограничения: скорость, предвзятость, ошибки и стоимость.

🌐 Данные становятся труднодоступными из-за ограничений доступа и авторских прав, что может привести к нехватке данных для обучения генеративных моделей ИИ к 2026–2032 годам.

🚀 Синтетические данные представляются решением этих проблем, но они не лишены недостатков. Они могут содержать предвзятости и ограничения, если исходные данные были некачественными.

⚠️ Переобучение на синтетических данных может привести к снижению качества и разнообразия моделей. Сложные модели, такие как o1 от OpenAI, могут создавать трудно обнаруживаемые галлюцинации в синтетических данных.

Теперь подробнее:

Возможно ли обучить ИИ только на данных, сгенерированных другим ИИ? Это может показаться бредовой идеей. Но она существует уже довольно давно — и по мере того, как становится всё труднее получить новые реальные данные, она набирает обороты.

Anthropic использовала некоторые синтетические данные для обучения одной из своих флагманских моделей Claude 3.5 Sonnet. Meta (признана экстремистской на территории РФ) доработала свои модели Llama 3.1 с использованием данных, генерируемых ИИ. А OpenAI, как сообщается, получает синтетические обучающие данные от o1, своей модели «рассуждений», для будущего Orion.

Но зачем вообще ИИ нужны данные и какие именно? И можно ли эти данные заменить синтетическими?

Системы ИИ — это статистические машины. Обученные на большом количестве примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы, например, что «кому» в электронном письме обычно предшествует «это касается».

Аннотации, обычно представляющие собой текст, обозначающий значение или части данных, которые используются этими системами, являются ключевым элементом в этих примерах. Они служат ориентирами, «обучая» модель различать вещи, места и идеи.

Рассмотрим модель классификации фотографий, которой было показано множество изображений кухонь с пометкой «кухня». В процессе обучения модель начнёт устанавливать связи между словом «кухня» и общими характеристиками кухонь (например, что на них есть холодильники и столешницы). После обучения, получив фотографию кухни, которая не была включена в первоначальные примеры, модель должна быть в состоянии идентифицировать её как таковую. (Конечно, если бы фотографии кухонь были помечены как «корова», она бы идентифицировала их как коров, что подчёркивает важность хорошей аннотации.)

Спрос на ИИ и необходимость предоставления размеченных данных для его разработки привели к росту рынка услуг по аннотации данных. По оценкам Dimension Market Research, сегодня он оценивается в 838,2 миллиона долларов, а в ближайшие 10 лет достигнет 10,34 миллиарда долларов. Хотя нет точных оценок того, сколько людей занимаются маркировкой, в статье за 2022 год указано, что их число исчисляется миллионами.

Компании большие и малые полагаются на работников, нанятых фирмами по аннотации данных, для создания меток для наборов данных ИИ. Некоторые из этих работ оплачиваются достаточно хорошо, особенно если маркировка требует специальных знаний (например, математических). Другие могут быть непосильными. Аннотаторам в развивающихся странах платят в среднем всего несколько долларов в час без каких-либо льгот или гарантий будущих заказов.

Таким образом, существуют гуманистические причины искать альтернативы меткам, созданным человеком. Например, Uber расширяет свой штат сотрудников, работающих с гиг-контрактами, для работы над аннотацией ИИ и маркировкой данных. Но есть и практические причины.

Люди могут маркировать данные только с определённой скоростью. У аннотаторов также есть предубеждения, которые могут проявляться в их аннотациях и, следовательно, в любых моделях, обученных на них. Аннотаторы допускают ошибки или путаются в инструкциях по маркировке. И платить людям за работу дорого.

Данные в целом стоят дорого. Shutterstock взимает с поставщиков ИИ десятки миллионов долларов за доступ к своим архивам, в то время как Reddit заработал сотни миллионов на лицензировании данных Google, OpenAI и другим.

Наконец, данные становится все труднее получать. Большинство моделей обучаются на огромных массивах общедоступных данных — данных, владельцы которых все чаще предпочитают скрывать их из-за опасений, что они будут скопированы или что им не будет предоставлен кредит или атрибуция. Более 35% из 1000 лучших веб-сайтов мира теперь блокируют веб-скребок OpenAI. И, согласно одному недавнему исследованию, около 25% данных из «высококачественных» источников были исключены из основных наборов данных, используемых для обучения моделей.

Если нынешняя тенденция к блокировке доступа сохранится, исследовательская группа Epoch AI прогнозирует, что у разработчиков закончатся данные для обучения генеративных моделей ИИ в период между 2026 и 2032 годами. Это, в сочетании со страхом судебных исков по авторскому праву и нежелательным материалом, попадающим в открытые наборы данных, заставило задуматься поставщиков ИИ.

На первый взгляд, синтетические данные кажутся решением всех этих проблем. Нужны аннотации? Создайте их. Нужно больше примеров данных? Нет проблем. Возможности безграничны. И в определенной степени это правда.

«Если «данные — это новая нефть», синтетические данные позиционируются как биотопливо, которое можно создавать без негативных последствий, связанных с реальными данными», — сказал TechCrunch Оз Киз, кандидат наук из Вашингтонского университета, изучающий этическое влияние новых технологий. «Вы можете взять небольшой начальный набор данных и смоделировать и экстраполировать из него новые записи».

Индустрия ИИ восприняла эту концепцию и начала активно её использовать.

В этом месяце компания Writer, занимающаяся генеративным ИИ, представила модель Palmyra X 004, обученную почти полностью на синтетических данных. Разработка обошлась всего в 700 000 долларов, утверждает Writer — по сравнению с оценкой в 4,6 миллиона долларов для сопоставимой модели OpenAI.

Открытые модели Microsoft Phi были частично обучены с использованием синтетических данных. То же самое касается моделей Google Gemma. Этим летом Nvidia представила семейство моделей, предназначенных для генерации синтетических обучающих данных, а стартап Hugging Face недавно выпустил, по его утверждению, крупнейший набор обучающих данных ИИ для синтетического текста.

Генерация синтетических данных превратилась в самостоятельный бизнес, который к 2030 году может стоить 2,34 миллиарда долларов. Gartner прогнозирует, что 60% данных, используемых для проектов ИИ и аналитики в этом году, будут созданы синтетически.

Лука Солдайни, старший научный сотрудник Института искусственного интеллекта Аллена, отметил, что методы синтетических данных могут использоваться для генерации обучающих данных в формате, который нелегко получить путем парсинга (или даже лицензирования контента). Например, при обучении своего видеогенератора Movie Gen компания Meta использовала Llama 3 для создания подписей к кадрам в обучающих данных, которые затем были уточнены людьми для добавления более подробных описаний, таких как описания освещения.

Аналогичным образом OpenAI сообщает, что она усовершенствовала GPT-4o с использованием синтетических данных для создания функции Canvas, похожей на блокнот, для ChatGPT. А Amazon заявила, что генерирует синтетические данные в дополнение к реальным данным, которые она использует для обучения моделей распознавания речи для Alexa.

«Модели синтетических данных можно использовать для быстрого расширения человеческой интуиции относительно того, какие данные необходимы для достижения определённого поведения модели», — сказал Солдайни.

Однако синтетические данные не являются панацеей. Он страдает от той же проблемы «мусор на входе, мусор на выходе», что и весь ИИ. Модели создают синтетические данные, и если данные, используемые для обучения этих моделей, содержат предубеждения и ограничения, их результаты будут такими же искажёнными. Например, группы, плохо представленные в базовых данных, будут представлены и в синтетических данных.

«Проблема в том, что вы можете сделать не так уж много», — сказал Киз. «Допустим, у вас в наборе данных всего 30 чернокожих людей. Экстраполяция может помочь, но если эти 30 человек принадлежат к среднему классу или имеют светлую кожу, то именно так будут выглядеть «репрезентативные» данные».

К этому моменту исследование, проведённое в 2023 году исследователями из Университета Райса и Стэнфорда, показало, что чрезмерная зависимость от синтетических данных во время обучения может привести к созданию моделей, качество и разнообразие которых постепенно снижается. Отбор проб смещения — плохое представление реального мира — приводит к ухудшению разнообразия модели после нескольких поколений обучения, считают исследователи (хотя они также обнаружили, что смешивание небольшого количества реальных данных помогает смягчить это).

Киз видит дополнительные риски в сложных моделях, таких как o1 от OpenAI, которые, по его мнению, могут вызывать галлюцинации в своих синтетических данных, которые трудно обнаружить. Это, в свою очередь, может снизить точность моделей, обученных на этих данных, особенно если источники галлюцинаций нелегко идентифицировать.

«Сложные модели галлюцинируют; данные, созданные сложными моделями, содержат галлюцинации», — добавил Киз. «И с такой моделью, как o1, сами разработчики не всегда могут объяснить, почему появляются артефакты».

Усугубление галлюцинаций может привести к появлению моделей, извергающих бессмыслицу. Исследование, опубликованное в журнале Nature, показывает, как модели, обученные на ошибочных данных, генерируют ещё более ошибочные данные, и как эта петля обратной связи ухудшает будущие поколения моделей. Исследователи обнаружили, что модели теряют понимание более эзотерических знаний на протяжении поколений, становясь более обобщёнными и часто выдающими ответы, не относящиеся к заданным им вопросам.

Последующее исследование показывает, что другие типы моделей, такие как генераторы изображений, не застрахованы от такого краха:

Солдайни соглашается с тем, что «сырым» синтетическим данным нельзя доверять, по крайней мере, если цель состоит в том, чтобы избежать обучения забывчивых чат-ботов и однородных генераторов изображений. По его словам, чтобы использовать его «безопасно», необходимо тщательно проверять, курировать и фильтровать его и в идеале сочетать со свежими реальными данными — точно так же, как вы поступали бы с любым другим набором данных.

Несоблюдение этого требования может в конечном итоге привести к коллапсу модели, когда модель становится менее «творческой» — и более предвзятой — в своих результатах, что в конечном итоге серьёзно нарушает её функциональность. Хотя этот процесс можно выявить и остановить до того, как он станет серьёзным, это риск.

«Исследователям необходимо изучить сгенерированные данные, повторить процесс генерации и определить меры безопасности для удаления некачественных точек данных», — сказал Солдайни. «Конвейеры синтетических данных не являются самосовершенствующейся машиной; их выходные данные должны тщательно проверяться и улучшаться перед использованием для обучения».

Генеральный директор OpenAI Сэм Альтман однажды заявил, что ИИ когда-нибудь будет генерировать синтетические данные, достаточно хорошие для эффективного самообучения. Но — если предположить, что это вообще возможно — такой технологии пока не существует. Ни одна крупная лаборатория ИИ не выпустила модель, обученную исключительно на синтетических данных.

По крайней мере, в обозримом будущем нам, похоже, понадобятся люди, которые будут следить за тем, чтобы обучение модели не пошло насмарку.