Добавить в корзинуПозвонить
Найти в Дзене

📝 ContextRL учит LLM выбирать контекст под ответ — открытые модели делают это почти наугад

Ваш ИИ-агент блестяще решает задачу, но не может объяснить, на каком именно фрагменте кода или детали картинки он основывался — и это проявляется как «контекстная неосознанность». Авторы показали это на простом тесте: модели просят выбрать один из двух почти одинаковых контекстов, где только один подтверждает конкретный ответ. Открытые варианты вроде Qwen3 (VL) 8B и Qwen3.5 9B набирают лишь 52–58%, почти как случайность, хотя на стандартных бенчмарках они выглядят прилично. Вместо «наказываем за неверный ответ» ContextRL добавляет вспомогательную цель в обучении с подкреплением: модель учится выбирать правильный контекст, а не просто угадывать результат. Аналогия простая: как если бы вместо чтения всей книги модель должна была указать правильную страницу, которая реально подтверждает вывод. По сравнению со стандартным GRPO авторы сообщают +2.2% прироста для агентных задач и +1.8% для визуальных вопрос-ответов. И контрольный эксперимент важен: тот же датасет без задачи «выбора контек

📝 ContextRL учит LLM выбирать контекст под ответ — открытые модели делают это почти наугад

Ваш ИИ-агент блестяще решает задачу, но не может объяснить, на каком именно фрагменте кода или детали картинки он основывался — и это проявляется как «контекстная неосознанность».

Авторы показали это на простом тесте: модели просят выбрать один из двух почти одинаковых контекстов, где только один подтверждает конкретный ответ. Открытые варианты вроде Qwen3 (VL) 8B и Qwen3.5 9B набирают лишь 52–58%, почти как случайность, хотя на стандартных бенчмарках они выглядят прилично.

Вместо «наказываем за неверный ответ» ContextRL добавляет вспомогательную цель в обучении с подкреплением: модель учится выбирать правильный контекст, а не просто угадывать результат. Аналогия простая: как если бы вместо чтения всей книги модель должна была указать правильную страницу, которая реально подтверждает вывод.

По сравнению со стандартным GRPO авторы сообщают +2.2% прироста для агентных задач и +1.8% для визуальных вопрос-ответов. И контрольный эксперимент важен: тот же датасет без задачи «выбора контекста» эффекта не дал.

Если вы дообучаете модели под агентов или мультимодальность, попробуйте добавить в RL вспомогательную выборку «из двух похожих контекстов» — но готовьтесь, что механика выбора сработает не везде, а цифры пока держатся на конкретных настройках.

#paper #RL #DeepSeek #Multimodal #Qwen3 #GRPO #vLLM

🔗 Context-Aware RL for Agentic and Multimodal LLMs