🚀 DEEPSEEK ПРЕДСТАВИЛ НОВЫЙ СПОСОБ МАСШТАБИРОВАНИЯ GENERALIST REWARD MODELS ВРЕМЕНИ ИНФЕРЕНСА Новая статья DeepSeek раскрывает метод SPCT, который улучшает генерацию принципов и критики для обобщённых reward моделей (GRM) в процессе инференса. Это значит — модели лучше оценивают свои решения прямо во время работы, без долгой дообучки. Главное — теперь масштабирование RL-подходов переносится «на фронт» — к inference, где GRM с помощью отказов (rejection fine-tuning) и правил (rule-based RL) учится самому улучшать свои оценки онлайн. Такая схема повышает качество и гибкость моделей, как DeepSeek R1, а новый R2, который уже на подходе, обещает ещё круче. Почему это важно? RL дополняет LLM, превращая их из простых предсказателей в мыслящих агентов, способных планировать и выбирать стратегию, а не просто угадывать слово за словом. Эта «взрывная» комбинация — как сказал проф. У Вэй — "мультипликативная": глубокое понимание плюс RL = умная машина нового уровня. Простой пример: вместо одн
🚀 DEEPSEEK ПРЕДСТАВИЛ НОВЫЙ СПОСОБ МАСШТАБИРОВАНИЯ GENERALIST REWARD MODELS ВРЕМЕНИ ИНФЕРЕНСА
4 августа 20254 авг 2025
1 мин