Найти в Дзене
Логово ИИ

Данные для обучения ИИ кончились. Почему это проблема?

«Мы уже исчерпали в основном совокупный объем человеческих знаний… в обучении ИИ», — сказал Маск во время прямой трансляции разговора с председателем Stagwell Марком Пенном на X поздно вечером в среду. «Это произошло в основном в прошлом году». Маск, владеющий компанией xAI, занимающейся разработкой искусственного интеллекта, повторил темы, которые бывший главный научный сотрудник OpenAI Илья Суцкевер затронул еще в декабре. Он заявил, что индустрия искусственного интеллекта достигла «пика данных», предсказал, что нехватка данных для обучения заставит изменить подход к обучению новых моделей. Маск предположил, что синтетические данные — данные, генерируемые самими моделями ИИ — это путь вперед. «Единственный способ дополнить [данные реального мира] — это синтетические данные, которые ИИ создает сам», — сказал он. Новые модели уже обучают на искусственных данных. Другие компании, включая таких технологических гигантов, как Microsoft, OpenAI и Anthropic, уже используют синтетические дан

«Мы уже исчерпали в основном совокупный объем человеческих знаний… в обучении ИИ», — сказал Маск во время прямой трансляции разговора с председателем Stagwell Марком Пенном на X поздно вечером в среду. «Это произошло в основном в прошлом году».

Маск, владеющий компанией xAI, занимающейся разработкой искусственного интеллекта, повторил темы, которые бывший главный научный сотрудник OpenAI Илья Суцкевер затронул еще в декабре. Он заявил, что индустрия искусственного интеллекта достигла «пика данных», предсказал, что нехватка данных для обучения заставит изменить подход к обучению новых моделей.

Маск предположил, что синтетические данные — данные, генерируемые самими моделями ИИ — это путь вперед. «Единственный способ дополнить [данные реального мира] — это синтетические данные, которые ИИ создает сам», — сказал он.

Новые модели уже обучают на искусственных данных.

Другие компании, включая таких технологических гигантов, как Microsoft, OpenAI и Anthropic, уже используют синтетические данные для обучения флагманских моделей ИИ. По оценкам Gartner, 60% данных, используемых для проектов ИИ и аналитики в 2024 году, уже были сгенерированы синтетически.

Phi-4 от Microsoft , исходный код которого был представлен на прошлой неделе, обучался на синтетических данных наряду с реальными данными. То же самое было и с моделями Gemma от Google . Anthropic использовала некоторые синтетические данные для разработки одной из своих самых производительных систем, Claude 3.5 Sonnet . Аналогично (с использованием синтетических данных) велась доработка последней серии моделей Llama.

В чем смысл?

Обучение на синтетических данных имеет и другие преимущества, например, экономию средств. Стартап ИИ Writer утверждает, что его модель Palmyra X 004, которая была разработана с использованием почти полностью синтетических источников, обошлась всего в 700 000 долларов — по сравнению с 4,6 миллиона долларов для модели OpenAI сопоставимого размера.

Но есть и недостатки. Исследования показывают, что синтетические данные могут привести к коллапсу модели, когда модель становится менее «креативной» — и более предвзятой в своих выходных данных, в конечном итоге серьезно ставя под угрозу ее функциональность.