самообучения. Обычно LLM улучшаются, генерируя множество вариантов ответа и выбирая самый «популярный». Но если модель систематически ошибается, она начинает усиливать собственные ошибки и закрепляет неправильную логику. Исследователи решили эту проблему с помощью внешней проверки. Дополнительная AI-система генерирует небольшой программный скрипт, который проверяет математическую логику ответа. Если код подтверждает, что решение действительно правильное, такой ответ получает большой вес при выборе итогового варианта. В итоге модель начинает учиться на фактически верных решениях, а не просто на повторении. Метод протестировали на сложных задачах математического рассуждения с открытыми моделями вроде Qwen и Llama. Результат оказался заметным - точность выросла до 31.6% на самых сложных задачах. Такой подход позволяет AI безопасно обучаться на неразмеченных данных, не зацикливаясь на уверенных, но неправильных ответах. Paper: arxiv.org/abs/2603.02203
Стэнфорд и Университет Мюнхена предложили новый способ обучения AI-моделей, который помогает им не закреплять неправильные ответы во время
12 марта12 мар
40
~1 мин