2806 подписчиков
Компания Google DeepMind представила SCoRe
SCoRe — это новый метод для многоэтапного онлайн-обучения с подкреплением (RL), который позволяет моделям самостоятельно исправлять свои ошибки.
Метод работает в два этапа:
Этап I: Тонкая настройка базовой модели для генерации попыток исправления, сохраняя целостность исходного вывода и избегая чрезмерно упрощенных решений.
Этап II: Использование многоэтапного RL для уточнения ответов с помощью формирования вознаграждения, поощряя лучшее самоисправление в ходе повторных попыток.
SCoRe продемонстрировал значительные улучшения на эталонных тестах, таких как MATH и HumanEval, превзойдя предыдущие методы. Это нововведение свидетельствует о том, что будущие крупные языковые модели могут стать более автономными, повышая эффективность за счет сокращения потребности во внешней обратной связи и усиливая обучение с подкреплением как ключевую методику.
#FREEDUROV
Около минуты
21 сентября 2024