Найти тему
2806 подписчиков

Компания Google DeepMind представила SCoRe


SCoRe — это новый метод для многоэтапного онлайн-обучения с подкреплением (RL), который позволяет моделям самостоятельно исправлять свои ошибки.

Метод работает в два этапа:

Этап I: Тонкая настройка базовой модели для генерации попыток исправления, сохраняя целостность исходного вывода и избегая чрезмерно упрощенных решений.

Этап II: Использование многоэтапного RL для уточнения ответов с помощью формирования вознаграждения, поощряя лучшее самоисправление в ходе повторных попыток.

SCoRe продемонстрировал значительные улучшения на эталонных тестах, таких как MATH и HumanEval, превзойдя предыдущие методы. Это нововведение свидетельствует о том, что будущие крупные языковые модели могут стать более автономными, повышая эффективность за счет сокращения потребности во внешней обратной связи и усиливая обучение с подкреплением как ключевую методику.



#FREEDUROV
Компания Google DeepMind представила SCoRe  SCoRe — это новый метод для многоэтапного онлайн-обучения с подкреплением (RL), который позволяет моделям самостоятельно исправлять свои ошибки.
Около минуты