14 подписчиков

Как чат-боты учатся быстрее: метод, который работает без кучи данных

30 марта30 мар

2 мин

Команда исследователей из MWS AI (входит в МТС), Университета ИТМО и Международного университета информационных технологий (IITU) разработала метод, который позволяет чат-ботам и голосовым ассистентам быстро адаптироваться к новым сценариям взаимодействия с пользователем. Работа была представлена на международной конференции EACL 2026, которая проходит в Рабате с 24 по 29 марта. Традиционно для перенастройки диалоговой модели на новую тему требуется сбор большого объёма размеченных данных. Любая потеря контекста или искажение информации в ходе диалога может привести к неправильным ответам, что особенно критично для голосовых ассистентов и корпоративных ботов. Новый метод использует обучение с подкреплением GRPO (Group Relative Policy Optimization). В отличие от привычных подходов с демонстрацией эталонных примеров, система сама исследует варианты действий и получает обратную связь на основе точности результата. Это позволяет: • адаптировать модели без больших наборов размеченных данных

Традиционно для перенастройки диалоговой модели на новую тему требуется сбор большого объёма размеченных данных. Любая потеря контекста или искажение информации в ходе диалога может привести к неправильным ответам, что особенно критично для голосовых ассистентов и корпоративных ботов.

Новый метод использует обучение с подкреплением GRPO (Group Relative Policy Optimization). В отличие от привычных подходов с демонстрацией эталонных примеров, система сама исследует варианты действий и получает обратную связь на основе точности результата. Это позволяет:

• адаптировать модели без больших наборов размеченных данных,

• работать на доступных вычислительных ресурсах,

• удерживать контекст диалога на новых сценариях.

Эксперименты показали впечатляющие результаты. Например, модель на 8 миллиардов параметров, обученная с GRPO, показала точность отслеживания диалога 41,9%, что выше чем у GPT-4 (38,7%) и даже модели на 32 миллиарда параметров, обученной классическим способом (39,9%). Причём обучение проводилось на данных из других предметных областей, а тестирование — на новых сценариях.

По словам инженера-исследователя MWS AI Тимура Ионова, метод GRPO показывает заметный эффект даже при небольшом объёме данных, что значительно снижает барьер входа для компаний, которые хотят внедрять чат-ботов для новых задач. Практическая польза метода особенно заметна для:

• клиентской поддержки,

• голосовых ассистентов,

• систем бронирования,

• внутренних корпоративных ботов.

Все эти системы требуют удерживания контекста диалога и точного понимания запросов пользователя.

Весь процесс обучения и инференса можно выполнить на одной GPU. Исходный код открыт, что делает метод доступным для исследователей и разработчиков.

Новая технология обещает ускорить развитие умных диалоговых систем, снизить зависимость от больших объёмов данных и сделать адаптацию к новым сценариям проще и быстрее. Это может стать важным шагом к более интеллектуальным и гибким чат-ботам, которые смогут эффективно работать с разнообразными запросами пользователей.