2806 подписчиков

Компания Google DeepMind представила SCoRe

SCoRe — это новый метод для многоэтапного онлайн-обучения с подкреплением (RL), который позволяет моделям самостоятельно исправлять свои ошибки.

Метод работает в два этапа:

Этап I: Тонкая настройка базовой модели для генерации попыток исправления, сохраняя целостность исходного вывода и избегая чрезмерно упрощенных решений.

Этап II: Использование многоэтапного RL для уточнения ответов с помощью формирования вознаграждения, поощряя лучшее самоисправление в ходе повторных попыток.

SCoRe продемонстрировал значительные улучшения на эталонных тестах, таких как MATH и HumanEval, превзойдя предыдущие методы. Это нововведение свидетельствует о том, что будущие крупные языковые модели могут стать более автономными, повышая эффективность за счет сокращения потребности во внешней обратной связи и усиливая обучение с подкреплением как ключевую методику.

CLAUDE, CHATGPT, НЕЙРОСЕТИ БЕЗ ВПН И ЗАРУБЕЖНЫХ КАРТ — ЖМИ СЮДА

Мы в Telegram

#FREEDUROV

Компания Google DeepMind представила SCoRe SCoRe — это новый метод для многоэтапного онлайн-обучения с подкреплением (RL), который позволяет моделям самостоятельно исправлять свои ошибки.

Около минуты

21 сентября 2024