Исследователи из MWS AI (входит в МТС Web Services), университета ИТМО и Международного университета информационных технологий (IITU) представили метод для повышения точности отслеживания состояния диалога в чат-ботах и голосовых помощниках, рассказали в пресс-службе компании.
Качество диалога с ИИ зависит от того, насколько хорошо система запоминает запросы пользователя. Если программа теряет или неверно интерпретирует хотя бы один параметр, дальнейшее общение может строиться на ошибочных данных, а пользователь получает нерелевантные ответы.
Исследование призвано решить одну из главных проблем современных диалоговых систем — адаптацию к новым доменам. Например, если модель умеет помогать с бронированием отелей, в новых условиях, например, в сфере юридических услуг она может «растеряться».
Обычно нейросети учат на примерах правильных ответов. Модели показывают нужный результат и учат его воспроизводить. Но такой подход не всегда применим к изменению сценариев и требует значительных затрат времени и ресурсов.
Авторы исследования предложили изменить сам принцип обучения: вместо того чтобы показывать модели, «как правильно», ей дают возможность самой исследовать разные варианты и получать награду за точный результат. Это метод обучения с подкреплением GRPO, который не требует тяжелых дополнительных компонентов и может быть реализован на тех же вычислительных мощностях.
Эксперименты показали устойчивый прирост качества ответов на моделях разного масштаба — от 1,5 до 32 млрд параметров. Например, одна из моделей на 8 млрд параметров после обучения с использованием GRPO превзошла не только GPT-4, но и модель в 4 раза крупнее, обученную классическим способом. При этом обучение проходило на данных из других доменов, а модель тестировали на новых для нее сценариях.
Важно, что GRPO дает заметный эффект даже при небольшом объеме обучающих данных, тем самым снижая барьер входа при адаптации системы к новому сценарию. Если говорить о практической пользе, то он будет полезен в клиентской поддержке, голосовых ассистентах, системах бронирования и внутренних корпоративных ботах. Наибольший эффект подход даст там, где важно удерживать контекст диалога
Тимур Ионов
инженер-исследователь MWS AI
Весь процесс обучения и инференса укладывается на одну GPU (графический процессор). Код выложен в открытый доступ.
Работа вошла в программу EACL 2026 — одной из крупнейших международных конференций в области обработки текстов (NLP), которая проходит в Рабате (Марокко) с 24 по 29 марта 2026 года.