Создатели искусственного интеллекта столкнулись с проблемой: им не хватает данных для обучения новых моделей нейросети, таких как будущий GPT-5. Это вызывает беспокойство среди ученых, которые опасаются, что это может замедлить прогресс в этой области. Одной из основных проблем является то, что многие источники информации ограничивают доступ к своим данным для ИИ, что ограничивает возможности обучения. Особенно это становится заметно, когда речь заходит о необходимости собрать от 60 до 100 триллионов токенов данных для обучения GPT-5. Ученые предупреждают, что уже к середине 2024 года могут возникнуть серьезные проблемы с поиском достаточного количества информации, ведь интернет может предложить на 10-20 триллионов токенов данных меньше, чем нужно. И вот тут на помощь приходит нестандартное решение: использовать транскрипции с YouTube. Да, можно представить, какое огромное количество информации хранится в видео на этой платформе. К тому же, большая часть данных в интернете сейчас непри
Разработчикам chatGPT-5 не хватает данных для обучения нейросети
3 апреля 20243 апр 2024
60
1 мин