Представьте: нейросеть, которая сама генерирует данные для своего обучения, сама решает, как себя улучшить, и делает это без участия человека. Звучит как фантастика? Ну так вот, исследователи из MIT это уже сделали — и выложили всё в открытый доступ.
Технология называется SEAL (Self-Adapting LLMs, то есть самоадаптирующиеся большие языковые модели). Первую версию статьи опубликовали ещё в июне 2025 года, но только сейчас, после серьёзного обновления и релиза кода на GitHub (под лицензией MIT, кстати, что позволяет коммерческое использование), об этом заговорили всерьёз.
Что такое SEAL и почему это важно?
Короче, SEAL позволяет языковым моделям (вроде тех, что стоят за ChatGPT) самостоятельно генерировать синтетические данные и дообучаться на них. Без людей. Без внешних датасетов. Модель сама решает, что ей нужно знать и как это усвоить.
Обычные LLM работают по принципу «заморозил веса после обучения — и всё». Хочешь обновить знания? Собирай новую базу данных, размечай, дообучай вручную. Дорого, долго, неудобно. А тут модель сама себе учитель.
Разработчики — команда из MIT Improbable AI Lab: Адам Цвайгер, Джётиш Пари, Хан Го, Экин Акюрек, Юн Ким и Пулкит Агравал. Работу презентовали на конференции NeurIPS 2025 (это одна из главных тусовок по нейросетям в мире).
Как это работает?
SEAL устроен по принципу двойного цикла:
- Внутренний цикл: модель генерирует так называемые «самоправки» (self-edits) — текстовые инструкции для самой себя, типа «вот эту информацию надо переформулировать вот так, чтобы лучше запомнить». Потом модель дообучается на этих правках (используется supervised fine-tuning).
- Внешний цикл: обучение с подкреплением (reinforcement learning). Модель проверяет, насколько её правки помогли улучшить результаты на реальных задачах. Если правка сработала — закрепляем такой подход, если нет — отбрасываем.
То есть модель учится не просто запоминать факты, а перерабатывать информацию так, чтобы её было легче усвоить. Примерно как студент, который перед экзаменом переписывает конспекты своими словами — и от этого лучше понимает материал.
Результаты экспериментов: цифры говорят сами за себя
SEAL проверили на двух типах задач:
1. Усвоение новых знаний
Брали текстовые отрывки из датасета SQuAD (это классический набор для проверки понимания текста, созданный в Стэнфорде ещё в 2016 году — больше 100 000 пар вопрос-ответ по статьям из Википедии). Модель не просто зубрила текст, а сама генерировала из него выводы и дообучалась на них.
И что вы думаете? После двух раундов обучения с подкреплением точность ответов на вопросы выросла с 33,5% до 47%. Причём это без доступа к исходному тексту — модель отвечала по памяти. И да, это лучше, чем результат с использованием синтетических данных от GPT-4.1. Вдумайтесь: модель сама себе нагенерировала данные лучше, чем их создал GPT-4.
2. Обучение на малом количестве примеров
Здесь использовали бенчмарк ARC — задачи, где нужно рассуждать, имея буквально несколько примеров. SEAL генерировал правки с указаниями по аугментации данных и настройке гиперпараметров.
Результат после обучения с подкреплением: точность решения задач подскочила до 72,5% против 20% без подкрепления. А модели, которые пытались решать задачи просто «в контексте» (in-context learning), вообще показали 0%. Ноль, Карл!
Технические детали (без занудства, обещаю)
Для эффективности SEAL использует LoRA — метод дообучения, при котором обновляется не вся модель целиком, а только небольшая часть параметров. Это быстро и недорого.
Алгоритм обучения с подкреплением — ReSTEM. Суть простая: модель генерирует кучу вариантов самоправок, тестирует их, а потом закрепляет только те, что реально улучшили результат. Такая эволюция в миниатюре.
Ограничения: куда без них
Ну конечно, не всё так радужно. Есть нюансы.
Катастрофическое забывание
Это когда модель, обучаясь на новом, забывает старое. Классическая проблема нейросетей. Правда, один из авторов, Джётиш Пари (Jyo Pari), в комментарии для VentureBeat отметил, что обучение с подкреплением помогает справиться с этим лучше, чем обычное дообучение. Они даже планируют комбинировать SEAL с новыми подходами, где модель учится не только данным, но и функциям вознаграждения.
Вычислительные затраты
Каждую самоправку нужно протестировать: дообучить модель, проверить результат. Это занимает 30-45 секунд на одну правку. Для обычных задач с обучением с подкреплением это много.
Джётиш объясняет: «Обучить SEAL непросто, потому что там два уровня оптимизации — внешний (RL) и внутренний (SFT). А на этапе применения для обновления весов модели потребуется новая системная инфраструктура». То есть чтобы SEAL стал массовым — нужно ещё поработать над системами для его внедрения.
Нужны размеченные данные
Сейчас SEAL требует наличия парных задач с правильными ответами для каждого контекста. Это ограничивает применение на неразмеченных данных. Но Джётиш уточнил: если есть задача с вычисляемой наградой (downstream task), SEAL можно обучить адаптироваться под неё. В принципе, модель может научиться даже избегать обучения на вредоносных данных — если правильно настроить сигнал вознаграждения.
Реакция сообщества: восторг и осторожный оптимизм
В соцсетях (особенно в X, бывшем Twitter) AI-комьюнити бурлит. Несколько ярких откликов:
@VraserX (преподаватель и AI-энтузиаст) назвал SEAL «рождением непрерывно самообучающегося ИИ» и предсказал, что такую архитектуру могут использовать в будущих версиях вроде GPT-6. По его словам, это «конец эпохи замороженных весов» — теперь модели смогут эволюционировать вместе с миром.
@alex_prompter (сооснователь AI-стартапа в маркетинге) написал: «MIT создал ИИ, который может переписывать собственный код, чтобы становиться умнее». Он отметил рост точности запоминания фактов на 40% и то, что модель превзошла GPT-4.1, используя данные, сгенерированные самой собой. «LLM, которые дообучают сами себя, больше не фантастика», — заключил он.
Видно, что в AI-сообществе большой запрос на модели, которые могут развиваться без постоянного вмешательства людей — особенно в быстро меняющихся областях или для персонализации.
Что дальше? Вопросы и перспективы
Джётиш Пари поделился интересными деталями о будущем SEAL:
Масштабирование
Эксперименты (Приложение B.7 в статье) показывают: чем больше модель, тем лучше у неё получается самоадаптация. «Как студенты со временем улучшают технику обучения — так и большие модели лучше генерируют полезные самоправки», — объясняет Джётиш.
Обобщение на новые форматы
SEAL справляется с новыми стилями промптов (см. таблицу 10 в статье). Но команда пока не проверяла, насколько хорошо он переносится на совершенно новые области или архитектуры моделей. «SEAL — это начальная работа, демонстрирующая возможности. Но требуется гораздо больше тестов», — признаёт исследователь.
Улучшение с вычислительной мощностью
Уже после нескольких шагов обучения с подкреплением заметны улучшения. «Это круто, — говорит Джётиш, — потому что с большим количеством вычислений мы можем получить ещё больший прирост». Он предлагает попробовать более продвинутые методы, например GRPO (Group Relative Policy Optimization).
На пути к по-настоящему адаптивным моделям
SEAL — это шаг к моделям, которые могут самостоятельно улучшаться со временем: интегрировать новые знания и менять способы обучения. Авторы видят будущее расширение, где SEAL помогает в самопредобучении (self-pretraining), непрерывном обучении и создании агентных систем — моделей, которые взаимодействуют с меняющейся средой и адаптируются постепенно.
Представьте: модель после каждого взаимодействия с миром использует SEAL, чтобы синтезировать обновления весов, постепенно интегрируя новые паттерны поведения и инсайты. Это снизит потребность в постоянном надзоре и ручных корректировках — особенно в узких областях или там, где данных мало.
А учитывая, что публичный веб-текст уже почти исчерпан и дальнейшее масштабирование LLM упирается в нехватку данных, самонаправленные подходы вроде SEAL могут сыграть критическую роль в том, чтобы сдвинуть границы возможностей языковых моделей.
Где посмотреть код и детали?
Весь проект SEAL, включая код и документацию, доступен по адресу: https://jyopari.github.io/posts/seal
Если вам интересно покопаться в деталях — вперёд. Лицензия MIT позволяет использовать это даже в коммерческих проектах.
Моё мнение (ну а как без него)
Мне кажется, SEAL — это один из тех проектов, которые через пару лет все будут вспоминать как «помните, когда это только начиналось?». Идея самообучающихся моделей витала в воздухе давно, но MIT реально показал рабочий прототип. Да, есть ограничения. Да, нужна инфраструктура. Но направление задано.
Особенно впечатляет, что модель превзошла GPT-4.1 на синтетических данных собственного производства. Это не просто технический трюк — это намёк на то, что будущее LLM может быть не в бесконечном скармливании им всего интернета, а в том, чтобы научить их думать о том, как они учатся. Мета-обучение, одним словом.
И ещё момент: всё это в открытом доступе. Любой разработчик, любая команда может взять, протестировать, улучшить. Вот это по-настоящему двигает прогресс вперёд.
Если вам интересны подобные прорывы в области ИИ, самообучающиеся системы и свежие новости из мира больших языковых моделей — не пропустите!🔔 Чтобы узнавать больше о самых интересных разработках в AI и следить за новостями мира искусственного интеллекта, подписывайтесь на мой канал «ProAI» в Telegram!