Ваш ИИ-агент блестяще решает задачу, но не может объяснить, на каком именно фрагменте кода или детали картинки он основывался — и это проявляется как «контекстная неосознанность». Авторы показали это на простом тесте: модели просят выбрать один из двух почти одинаковых контекстов, где только один подтверждает конкретный ответ. Открытые варианты вроде Qwen3 (VL) 8B и Qwen3.5 9B набирают лишь 52–58%, почти как случайность, хотя на стандартных бенчмарках они выглядят прилично. Вместо «наказываем за неверный ответ» ContextRL добавляет вспомогательную цель в обучении с подкреплением: модель учится выбирать правильный контекст, а не просто угадывать результат. Аналогия простая: как если бы вместо чтения всей книги модель должна была указать правильную страницу, которая реально подтверждает вывод. По сравнению со стандартным GRPO авторы сообщают +2.2% прироста для агентных задач и +1.8% для визуальных вопрос-ответов. И контрольный эксперимент важен: тот же датасет без задачи «выбора контек
📝 ContextRL учит LLM выбирать контекст под ответ — открытые модели делают это почти наугад
ВчераВчера
1 мин