11,1 тыс подписчиков

🤖 OpenClaw-RL: фреймворк обновляет веса агента на ходу, обучая его на реакциях пользователя и среды

17 марта17 мар

1 мин

Исследователи из Princeton выпустили OpenClaw-RL — фреймворк, который дообучает агента в фоне, пока тот отвечает на запросы, без отдельного датасета и без ручной разметки. Cигналы извлекаются автоматически в процессе диалога. Языковые модели не меняются от разговора к разговору: веса фиксированы, и после завершения сессии ничего не сохраняется в параметрах. То, что выглядит как «запоминание» — это контекстное окно, а не обучение. OpenClaw-RL устроен иначе: он дообучает модель, запущенную на сервере пользователя, обновляя веса через градиентный спуск прямо во время использования — если пользователь переспросил, это сигнал недовольства, а если написал конкретную поправку, фреймворк извлекает из неё подсказку и обучает модель на уровне отдельных токенов. Подключается всё это через OpenClaw — он принимает запросы в том же формате, что OpenAI API, так что переключиться и начать дообучать собственную модель можно просто сменив базовый URL. Два метода работают в паре: Binary RL оценивает ка

Языковые модели не меняются от разговора к разговору: веса фиксированы, и после завершения сессии ничего не сохраняется в параметрах. То, что выглядит как «запоминание» — это контекстное окно, а не обучение. OpenClaw-RL устроен иначе: он дообучает модель, запущенную на сервере пользователя, обновляя веса через градиентный спуск прямо во время использования — если пользователь переспросил, это сигнал недовольства, а если написал конкретную поправку, фреймворк извлекает из неё подсказку и обучает модель на уровне отдельных токенов.

Подключается всё это через OpenClaw — он принимает запросы в том же формате, что OpenAI API, так что переключиться и начать дообучать собственную модель можно просто сменив базовый URL. Два метода работают в паре: Binary RL оценивает каждый ход (+1/−1) и обновляет политику через PPO, тогда как Hindsight-Guided OPD конвертирует текстовые поправки пользователя в токен-уровневый сигнал — какие токены усилить, какие подавить.

В результате комбинация обоих методов за 16 взаимодействий поднимает оценку персонализации Qwen3-4B с 0.17 до 0.81, а для агента с вызовами инструментов точность выросла с 0.17 до 0.30 при добавлении пошаговых наград.

Инфраструктура поддерживает терминальных, GUI, SWE и tool-call агентов с масштабированием до 128 параллельных окружений, запускается на 8 GPU или без GPU через облачный Tinker, поддерживает LoRA. Все данные остаются на инфраструктуре пользователя.

Код фреймворка доступен на Github под лицензией Apache 2.0.

#Stateoftheart

Гаджеты и электроника

5,73 млн интересуются