13 подписчиков

Формируется рынок качественного контента для обучения AI (искусственного интеллекта)

23 июня 202423 июн 2024

2 мин

Основная причина дефицита информации состоит в превышении роста потребности в ней над доступными машинам запасами текстового контента. Причем созданного человеком, а не сгенерированного искусственным интеллектом. Поскольку нет ясности, насколько эффективным и ответственным перед человечеством будет развитие ИИ на основе данных, созданных им же.

Не стоит забывать, что большая часть информации для обучения нейросетей принадлежит большим компаниям и социальным сетям. Это одна из причин, заставляющих бизнесы делать свои разработки в области ИИ. На

В этом году центр HAI (Human-Centered Artificial Intelligence) Стэнфордского университета выпустил отчет о развитии искусственного интеллекта. В его первой главе, в частности, говорится о том, что эксперты ожидают исчерпания публичных текстовых данных в промежутке между 2026 и 2032 годом. Предыдущие оценки этой группы ученых предсказывали нехватку качественных выборок для языковых моделей уже в 2024 году, но впоследствии улучшили свои прогнозы.
Основная причина дефицита информации состоит в превышении роста потребности в ней над доступными машинам запасами текстового контента. Причем созданного человеком, а не сгенерированного искусственным интеллектом. Поскольку нет ясности, насколько эффективным и ответственным перед человечеством будет развитие ИИ на основе данных, созданных им же.
Не стоит забывать, что большая часть информации для обучения нейросетей принадлежит большим компаниям и социальным сетям. Это одна из причин, заставляющих бизнесы делать свои разработки в области ИИ. Например, через популярную технику RAG (retrieval augmented generation) — надстройку над базовой (фундаментальной) языковой моделью. Она оптимизирует ответы больших языковых моделей, расширяя их контекст дополнительными внешними данными, необходимыми для ответа на специфичные для той или иной сферы запросы. Таким образом, с помощью этой техники удается с минимальными усилиями адаптировать ИИ под профильные задачи и минимизировать так называемые «галлюцинации» или ложные высказывания.
Все больше крупных корпораций включаются в полномасштабную гонку в сфере искусственного интеллекта. Они создают собственные фундаментальные модели, имея доступ к огромному массиву данных, ограниченных для общего пользования и в условиях жесткого дефицита становящихся большим конкурентным преимуществом. Например, Илон Маск с моделью Grok, обучающейся на основе данных Х (бывшего Twitter). Или Марк Цукерберг с Llama 3, которая еще в прошлом поколении задала стандарт качества для open source ИИ. Или Google с целым семейством моделей Gemini. Вероятнее всего, такое положение дел приведет к монополизации рынка искусственного интеллекта.
Нехватка информации уже подталкивает разработчиков к ее покупке у частных владельцев и компаний, не имеющих серьезных амбиций по развитию ИИ. В середине мая 2024 года появилась информация о том, что Reddit сотрудничает с OpenAI для интеграции ChatGPT. Площадка рассматривает продажу контента для обучения моделей ИИ как источник дохода. Также были сообщения о соглашении платформы Reddit с Alphabet (материнская компания Google), разрешающем моделям искусственного интеллекта Google использовать данные Reddit.
(Полный текст: Когда кончится все: на сколько еще хватит данных для обучения ИИ
Павел Балтабаев)
https://www.forbes.ru/tekhnologii/515096-kogda-koncitsa-vse-na-skol-ko-ese-hvatit-dannyh-dla-obucenia-ii