2859 подписчиков
День открытий чудных
Исследователи Google DeepMind предложили многоэтапный метод обучения больших языковых моделей (LLM) способности к самокоррекции с помощью подкрепляющего обучения.
Существующие подходы, такие как обучение с учителем (SFT), оказались неэффективными для обучения самокоррекции и страдают от рассогласования между тренировочными данными и ответами модели.
Новый метод сначала оптимизирует поведение модели по коррекции, а затем использует бонусное вознаграждение для усиления самокоррекции во время обучения. Этот подход основан полностью на самогенерируемых данных.
Когда новый метод был применен к моделям Gemini 1.0 Pro и 1.5 Flash, он достиг передового уровня производительности по самокоррекции, улучшив базовые модели на 15,6% и 9,1% соответственно на бенчмарках MATH и HumanEval.
Пример о1 оказался вдохновляющим:)
#FREEDUROV
Около минуты
21 сентября 2024