Исследователи из Princeton выпустили OpenClaw-RL — фреймворк, который дообучает агента в фоне, пока тот отвечает на запросы, без отдельного датасета и без ручной разметки. Cигналы извлекаются автоматически в процессе диалога. Языковые модели не меняются от разговора к разговору: веса фиксированы, и после завершения сессии ничего не сохраняется в параметрах. То, что выглядит как «запоминание» — это контекстное окно, а не обучение. OpenClaw-RL устроен иначе: он дообучает модель, запущенную на сервере пользователя, обновляя веса через градиентный спуск прямо во время использования — если пользователь переспросил, это сигнал недовольства, а если написал конкретную поправку, фреймворк извлекает из неё подсказку и обучает модель на уровне отдельных токенов. Подключается всё это через OpenClaw — он принимает запросы в том же формате, что OpenAI API, так что переключиться и начать дообучать собственную модель можно просто сменив базовый URL. Два метода работают в паре: Binary RL оценивает ка
🤖 OpenClaw-RL: фреймворк обновляет веса агента на ходу, обучая его на реакциях пользователя и среды
17 марта17 мар
7
1 мин