Команда исследователей из MWS AI (входит в МТС), Университета ИТМО и Международного университета информационных технологий (IITU) разработала метод, который позволяет чат-ботам и голосовым ассистентам быстро адаптироваться к новым сценариям взаимодействия с пользователем. Работа была представлена на международной конференции EACL 2026, которая проходит в Рабате с 24 по 29 марта. Традиционно для перенастройки диалоговой модели на новую тему требуется сбор большого объёма размеченных данных. Любая потеря контекста или искажение информации в ходе диалога может привести к неправильным ответам, что особенно критично для голосовых ассистентов и корпоративных ботов. Новый метод использует обучение с подкреплением GRPO (Group Relative Policy Optimization). В отличие от привычных подходов с демонстрацией эталонных примеров, система сама исследует варианты действий и получает обратную связь на основе точности результата. Это позволяет: • адаптировать модели без больших наборов размеченных данных
Как чат-боты учатся быстрее: метод, который работает без кучи данных
30 марта30 мар
3
2 мин