31 подписчик

🚀 DEEPSEEK ПРЕДСТАВИЛ НОВЫЙ СПОСОБ МАСШТАБИРОВАНИЯ GENERALIST REWARD MODELS ВРЕМЕНИ ИНФЕРЕНСА

4 августа 20254 авг 2025

1 мин

🚀 DEEPSEEK ПРЕДСТАВИЛ НОВЫЙ СПОСОБ МАСШТАБИРОВАНИЯ GENERALIST REWARD MODELS ВРЕМЕНИ ИНФЕРЕНСА Новая статья DeepSeek раскрывает метод SPCT, который улучшает генерацию принципов и критики для обобщённых reward моделей (GRM) в процессе инференса. Это значит — модели лучше оценивают свои решения прямо во время работы, без долгой дообучки. Главное — теперь масштабирование RL-подходов переносится «на фронт» — к inference, где GRM с помощью отказов (rejection fine-tuning) и правил (rule-based RL) учится самому улучшать свои оценки онлайн. Такая схема повышает качество и гибкость моделей, как DeepSeek R1, а новый R2, который уже на подходе, обещает ещё круче. Почему это важно? RL дополняет LLM, превращая их из простых предсказателей в мыслящих агентов, способных планировать и выбирать стратегию, а не просто угадывать слово за словом. Эта «взрывная» комбинация — как сказал проф. У Вэй — "мультипликативная": глубокое понимание плюс RL = умная машина нового уровня. Простой пример: вместо одн

Новая статья DeepSeek раскрывает метод SPCT, который улучшает генерацию принципов и критики для обобщённых reward моделей (GRM) в процессе инференса. Это значит — модели лучше оценивают свои решения прямо во время работы, без долгой дообучки.

Главное — теперь масштабирование RL-подходов переносится «на фронт» — к inference, где GRM с помощью отказов (rejection fine-tuning) и правил (rule-based RL) учится самому улучшать свои оценки онлайн. Такая схема повышает качество и гибкость моделей, как DeepSeek R1, а новый R2, который уже на подходе, обещает ещё круче.

Почему это важно?

RL дополняет LLM, превращая их из простых предсказателей в мыслящих агентов, способных планировать и выбирать стратегию, а не просто угадывать слово за словом. Эта «взрывная» комбинация — как сказал проф. У Вэй — "мультипликативная": глубокое понимание плюс RL = умная машина нового уровня.

Простой пример: вместо одной «правильной» подсказки, LLM с RL учится выбирать лучшие варианты по своим внутренним оценкам — меняется сама суть диалога и принятия решений. SPCT позволяет масштабировать этот процесс, делая модель более умной и универсальной.

Смотри видосик – там всё наглядно. Подробнее в статье на arXiv и разбор на Synced.

Жми 🔥, если инфа полезная!

#DeepSeek #RL #LLM | ВСЁ ПРО AI | AI NEWS | Дзен | ОК