Найти в Дзене
2859 подписчиков

День открытий чудных


Исследователи Google DeepMind предложили многоэтапный метод обучения больших языковых моделей (LLM) способности к самокоррекции с помощью подкрепляющего обучения.

Существующие подходы, такие как обучение с учителем (SFT), оказались неэффективными для обучения самокоррекции и страдают от рассогласования между тренировочными данными и ответами модели.

Новый метод сначала оптимизирует поведение модели по коррекции, а затем использует бонусное вознаграждение для усиления самокоррекции во время обучения. Этот подход основан полностью на самогенерируемых данных.

Когда новый метод был применен к моделям Gemini 1.0 Pro и 1.5 Flash, он достиг передового уровня производительности по самокоррекции, улучшив базовые модели на 15,6% и 9,1% соответственно на бенчмарках MATH и HumanEval.

Пример о1 оказался вдохновляющим:)



#FREEDUROV
День открытий чудных  Исследователи Google DeepMind предложили многоэтапный метод обучения больших языковых моделей (LLM) способности к самокоррекции с помощью подкрепляющего обучения.
Около минуты