Революция в самообучающихся системах
Представьте себе AI, который не нуждается в постоянной помощи людей, чтобы становиться умнее. Звучит как научная фантастика? Но вот исследователи из Meta FAIR и Национального университета Сингапура разработали именно это — новую систему под названием SPICE (Self-Play In Corpus Environments), которая позволяет AI системам самим себя улучшать.
Суть работает просто: два AI агента играют друг против друга, создавая себе собственные вызовы и постепенно развиваясь без присмотра человека. Конечно, это пока только доказательство концепции, но такой механизм может стать основой для будущих систем, которые сумеют адаптироваться к своему окружению и становиться устойчивее к непредсказуемости реального мира.
Проблема, которую все пытались решить
Цель самообучающегося AI — создать системы, способные развивать свои возможности через взаимодействие с окружением. Казалось бы, простая задача, но на деле всё сложнее.
Обычно используют подход с верифицируемыми наградами (RLVR), где модели получают бонусы за правильные ответы. Но есть проблема: всё зависит от человеческих наборов задач и специализированных систем оценки. Это очень сложно масштабировать.
Самоборьба — когда модель совершенствуется, конкурируя сама с собой — звучит перспективнее. Но вот что мешает:
- Галлюцинации накапливаются. Ошибки в сгенерированных вопросах и ответах создают замкнутый круг, где неточности множатся.
- Информационная симметрия убивает творчество. Когда генератор задач и решатель знают одно и то же, они не способны создавать по-настоящему новые вызовы и застревают в повторяющихся паттернах.
Как справедливо заметили исследователи: самосовершенствование требует взаимодействия с внешним источником, дающим разнообразную и проверяемую обратную связь, а не закрытый цикл самоанализа.
Как работает SPICE — просто и гениально
Система позволяет одной модели играть две роли одновременно:
- «Челленджер» — создаёт задачи из огромного хранилища текстовых документов.
- «Решатель» — пытается решить эти задачи, но без доступа к исходным документам.
Вот это поворот! Решатель не видит источники информации, которые использовал Челленджер. Это разрушает информационную симметрию, которая мешала всем предыдущим попыткам.
Привязка к реальным документам — это словно якорь в море галлюцинаций. Вопросы и ответы теперь опираются на реальный контент, что критически важно. Да, AI должна учиться не только на своих выводах, но и на взаимодействии с людьми и реальным миром.
Состязательная динамика между ролями создаёт автоматическую программу обучения. Челленджер награждается за вопросы, которые разнообразны и находятся прямо на границе возможностей Решателя — не слишком лёгкие, но и не невозможные. Решатель награждается за правильные ответы. Это создаёт взаимное развитие: оба агента постоянно обнаруживают и преодолевают новые задачи.
Ещё одна фишка: система работает с сырыми документами, а не с предготовленными наборами вопрос-ответ. Это значит, что SPICE может генерировать разные форматы — множественный выбор, открытые вопросы, что угодно. Такая гибкость позволяет применять её к любой области, что раньше было узким местом. Больше не нужны дорогие человеческие наборы данных для специализированных областей вроде юридического или медицинского анализа.
Что показали реальные тесты
Исследователи протестировали SPICE на разных моделях, включая Qwen3-4B-Base и OctoThinker-3B-Hybrid-Base, и сравнили результаты с базовыми моделями без обучения, моделями с фиксированным сильным соперником и чистыми методами самоборьбы.
По всем показателям SPICE выигрывала — значительные улучшения в математических и общих задачах на логику. Данные показывают, что навыки, развитые через самоборьбу с опорой на корпус текстов, хорошо переносятся между разными моделями благодаря разнообразному внешнему источнику знаний.
Самое интересное: состязательная динамика создаёт эффективную автоматическую программу сложности. На протяжении обучения Челленджер учится создавать всё более сложные задачи. В одном эксперименте успешность Решателя на фиксированном наборе задач выросла с 55% до 85%. Одновременно более поздние версии Челленджера генерировали вопросы, которые снижали успешность ранней версии Решателя с 55% до 35%. Оба агента развивались синхронно.
Что дальше?
Исследователи видят это как переход от замкнутой самоборьбы, которая часто застревает в галлюцинациях, к открытому совершенствованию через взаимодействие с огромным, проверяемым знанием из текстовых корпусов веба.
Пока SPICE использует корпус текстов — человеческий опыт, зафиксированный в словах. Но цель амбициознее: создать системы, которые генерируют задачи на основе взаимодействия с реальностью — физическим миром, интернетом, человеческими взаимодействиями, видео, аудио, данными датчиков.
В общем, это похоже на то, как мы растим детей: они развиваются не только через книги, но через реальный опыт и взаимодействие с миром.
Самообучающиеся системы — это будущее AI, которое становится реальностью прямо сейчас.🔔 Чтобы узнать больше о развитии AI, автономных агентов и новых методах обучения, подпишитесь на мой канал «ProAI» в Telegram!