30 подписчиков

сегодня я хочу рассказать про нашу статью Call, Reward, Repeat: Advancing Dialog State Tracking with GRPO and Function Calling; благо есть

ВчераВчера

~1 мин

повод - на EACL SRW она получила награду Outstanding paper суть работы довольно простая, но сначала надо сделать отступление и рассказать про саму задачу DST - Dialogue State Tracking; идея в том, что при общении с пользователем диалоговая система должна хранить полученные данные, чтобы выполнить потребность пользователя (1 картинка) еще до нас придумали, что это можно сделать с помощью LLM и function calling; наша инновация заключается в применении к этому процессу GRPO, что позволяет добиваться хороших результатов при небольшом объеме данных, которые для диалогов всегда были проблемой (2 и 3 картинки) пользуясь случаем, хочу поздравить своих соавторов - Тимура и Аню #моистатьи @valuableai

сегодня я хочу рассказать про нашу статью Call, Reward, Repeat: Advancing Dialog State Tracking with GRPO and Function Calling; благо есть повод - на EACL SRW она получила награду Outstanding paper

суть работы довольно простая, но сначала надо сделать отступление и рассказать про саму задачу DST - Dialogue State Tracking; идея в том, что при общении с пользователем диалоговая система должна хранить полученные данные, чтобы выполнить потребность пользователя (1 картинка)

еще до нас придумали, что это можно сделать с помощью LLM и function calling; наша инновация заключается в применении к этому процессу GRPO, что позволяет добиваться хороших результатов при небольшом объеме данных, которые для диалогов всегда были проблемой (2 и 3 картинки)

пользуясь случаем, хочу поздравить своих соавторов - Тимура и Аню #моистатьи

@valuableai