85 подписчиков

В России разработали метод быстрой адаптации чат-ботов

3 дня назад3 дня назад

2 мин

Исследователи из MWS AI (входит в МТС Web Services), университета ИТМО и Международного университета информационных технологий (IITU) представили метод для повышения точности отслеживания состояния диалога в чат-ботах и голосовых помощниках, рассказали в пресс-службе компании.

Качество диалога с ИИ зависит от того, насколько хорошо система запоминает запросы пользователя. Если программа теряет

yandex.ru

Получите бонусы от Яндекса

Качество диалога с ИИ зависит от того, насколько хорошо система запоминает запросы пользователя. Если программа теряет или неверно интерпретирует хотя бы один параметр, дальнейшее общение может строиться на ошибочных данных, а пользователь получает нерелевантные ответы.

redirect.appmetrica.yandex.com

Исследование призвано решить одну из главных проблем современных диалоговых систем — адаптацию к новым доменам. Например, если модель умеет помогать с бронированием отелей, в новых условиях, например, в сфере юридических услуг она может «растеряться».

ya.ru

Верификация

Обычно нейросети учат на примерах правильных ответов. Модели показывают нужный результат и учат его воспроизводить. Но такой подход не всегда применим к изменению сценариев и требует значительных затрат времени и ресурсов.

Авторы исследования предложили изменить сам принцип обучения: вместо того чтобы показывать модели, «как правильно», ей дают возможность самой исследовать разные варианты и получать награду за точный результат. Это метод обучения с подкреплением GRPO, который не требует тяжелых дополнительных компонентов и может быть реализован на тех же вычислительных мощностях.

redirect.appmetrica.yandex.com

Скачать бесплатное приложение Яндекс с Алисой для iOS и Android

Эксперименты показали устойчивый прирост качества ответов на моделях разного масштаба — от 1,5 до 32 млрд параметров. Например, одна из моделей на 8 млрд параметров после обучения с использованием GRPO превзошла не только GPT-4, но и модель в 4 раза крупнее, обученную классическим способом. При этом обучение проходило на данных из других доменов, а модель тестировали на новых для нее сценариях.

Важно, что GRPO дает заметный эффект даже при небольшом объеме обучающих данных, тем самым снижая барьер входа при адаптации системы к новому сценарию. Если говорить о практической пользе, то он будет полезен в клиентской поддержке, голосовых ассистентах, системах бронирования и внутренних корпоративных ботах. Наибольший эффект подход даст там, где важно удерживать контекст диалога

Тимур Ионов

инженер-исследователь MWS AI

Весь процесс обучения и инференса укладывается на одну GPU (графический процессор). Код выложен в открытый доступ.

Работа вошла в программу EACL 2026 — одной из крупнейших международных конференций в области обработки текстов (NLP), которая проходит в Рабате (Марокко) с 24 по 29 марта 2026 года.