Чтобы сделать ИИ эффективным, требуется много тренировок соответствующих моделей. Многие модели ИИ снабжаются данными, которые находятся в свободном доступе в интернете. Но что произойдет, когда искусственный интеллект усвоит все данные из сети?
Фото из открытых источников Как сообщает Wall Street Journal, мы достигнем этой точки через несколько лет. Компании, занимающиеся ИИ, уже ищут альтернативы, чтобы в будущем создавать более крупные модели искусственного интеллекта с другими обучающими данными. Без новых данных все модели остались бы на одном уровне.
Сообщается, что OpenAI уже реализует первоначальные планы по обучению GPT-5 через YouTube, точнее, с помощью транскрипции видео. По оценкам Earthweb, сейчас на YouTube размещено более миллиарда видеороликов. Таким образом, GPT-5 будет содержать много новых, естественно созданных данных.
Другие компании хотят пойти по пути синтетических данных ИИ. Речь идет об обучающих данных, созданных самим ИИ. Однако, по мнению некоторых экспертов, это решение таит в себе риски. Они называют получившийся ИИ «ИИ Габсбургов», имея в виду династию Габсбургов. Эта династия свела к минимуму свой собственный генофонд посредством инбридинга, что привело к физическим и психическим заболеваниям и ранней смерти некоторых членов этого рода.
Обученный таким образом ИИ может давать худшие результаты, поскольку модель дополнительно обрабатывает уже сгенерированные данные. Компании, занимающиеся искусственным интеллектом, хотят избежать такого «габсбургского ИИ», гарантируя качество синтетических данных. Однако ни одна компания еще не выяснила, как может выглядеть эта гарантия качества. Первые примеры, такие как Claude 3 — ИИ, уже обученный на искусственных данных, — кажутся многообещающими.
Некоторые исследователи не боятся, что однажды ИИ перестанет получать новые данные. Фактически, как сообщает Harvard Business Review, это может стать возможностью для искусственного интеллекта достичь следующего этапа развития.