Найти в Дзене
ProStoTak

Илон Маск: искусственный интеллект исчерпал данные человечества.

Илон Маск выразил мнение, что объем данных, доступных для обучения искусственного интеллекта, практически исчерпан. Во время обсуждения с председателем Stagwell Марком Пенном на платформе X он заявил, что это произошло в прошлом году. Маск поддержал точку зрения Ильи Суцкевера, бывшего главного научного сотрудника OpenAI, который на конференции NeurIPS в декабре отметил, что индустрия ИИ достигла "пика данных". Суцкевер предсказал, что нехватка обучающих данных потребует изменения существующих подходов к разработке моделей. Маск предложил использовать синтетические данные, генерируемые самими ИИ-моделями, как решение для дополнения реальных данных. Он подчеркнул, что с помощью синтетических данных ИИ сможет самостоятельно оценивать себя и проходить процесс самообучения. Крупные технологические компании, такие как Microsoft, Meta, OpenAI и Anthropic, уже применяют синтетические данные для обучения своих моделей. По прогнозам Gartner, в 2024 году 60% данных, используемых в проектах ИИ

Илон Маск
Илон Маск

Илон Маск выразил мнение, что объем данных, доступных для обучения искусственного интеллекта, практически исчерпан. Во время обсуждения с председателем Stagwell Марком Пенном на платформе X он заявил, что это произошло в прошлом году. Маск поддержал точку зрения Ильи Суцкевера, бывшего главного научного сотрудника OpenAI, который на конференции NeurIPS в декабре отметил, что индустрия ИИ достигла "пика данных". Суцкевер предсказал, что нехватка обучающих данных потребует изменения существующих подходов к разработке моделей.

Маск предложил использовать синтетические данные, генерируемые самими ИИ-моделями, как решение для дополнения реальных данных. Он подчеркнул, что с помощью синтетических данных ИИ сможет самостоятельно оценивать себя и проходить процесс самообучения. Крупные технологические компании, такие как Microsoft, Meta, OpenAI и Anthropic, уже применяют синтетические данные для обучения своих моделей. По прогнозам Gartner, в 2024 году 60% данных, используемых в проектах ИИ, будут синтетическими. Модель Microsoft Phi-4 была обучена на сочетании синтетических и реальных данных, аналогичный подход использовался для создания моделей Google Gemma. Anthropic также использовала синтетические данные при разработке Claude 3.5 Sonnet, а Meta улучшила свои модели Llama с помощью ИИ-сгенерированных данных.

Преимущества обучения на синтетических данных включают экономическую эффективность. Например, стартап Writer утверждает, что их модель Palmyra X 004, в основном основанная на синтетических источниках, стоила всего $700,000, тогда как сопоставимая модель OpenAI оценивалась в $4.6 миллиона. Тем не менее, существуют и недостатки: некоторые исследования показывают, что синтетические данные могут привести к "коллапсу модели", снижая креативность и увеличивая предвзятость результатов, что может негативно сказаться на функциональности ИИ. Поскольку модели генерируют синтетические данные на основе существующих, любые предвзятости из оригинальных данных будут воспроизводиться в результатах.