11,5 тыс подписчиков

Стэнфорд и Университет Мюнхена предложили новый способ обучения AI-моделей, который помогает им не закреплять неправильные ответы во время

12 марта12 мар

~1 мин

самообучения. Обычно LLM улучшаются, генерируя множество вариантов ответа и выбирая самый «популярный». Но если модель систематически ошибается, она начинает усиливать собственные ошибки и закрепляет неправильную логику. Исследователи решили эту проблему с помощью внешней проверки. Дополнительная AI-система генерирует небольшой программный скрипт, который проверяет математическую логику ответа. Если код подтверждает, что решение действительно правильное, такой ответ получает большой вес при выборе итогового варианта. В итоге модель начинает учиться на фактически верных решениях, а не просто на повторении. Метод протестировали на сложных задачах математического рассуждения с открытыми моделями вроде Qwen и Llama. Результат оказался заметным - точность выросла до 31.6% на самых сложных задачах. Такой подход позволяет AI безопасно обучаться на неразмеченных данных, не зацикливаясь на уверенных, но неправильных ответах. Paper: arxiv.org/abs/2603.02203

Стэнфорд и Университет Мюнхена предложили новый способ обучения AI-моделей, который помогает им не закреплять неправильные ответы во время самообучения.

Обычно LLM улучшаются, генерируя множество вариантов ответа и выбирая самый «популярный». Но если модель систематически ошибается, она начинает усиливать собственные ошибки и закрепляет неправильную логику.

Исследователи решили эту проблему с помощью внешней проверки. Дополнительная AI-система генерирует небольшой программный скрипт, который проверяет математическую логику ответа.

Если код подтверждает, что решение действительно правильное, такой ответ получает большой вес при выборе итогового варианта. В итоге модель начинает учиться на фактически верных решениях, а не просто на повторении.

Метод протестировали на сложных задачах математического рассуждения с открытыми моделями вроде Qwen и Llama.

Результат оказался заметным - точность выросла до 31.6% на самых сложных задачах.

Такой подход позволяет AI безопасно обучаться на неразмеченных данных, не зацикливаясь на уверенных, но неправильных ответах.

Paper: arxiv.org/abs/2603.02203