DeepSeek представила новую технологию обучения reasoning-моделей: Self-Principled Critique Tuning Что произошло Китайская исследовательская лаборатория DeepSeek AI, представила революционный метод для улучшения способностей рассуждения в моделях искусственного интеллекта. Новая техника названа Self-Principled Critique Tuning (SPCT), нацелена на создание более универсальных и масштабируемых моделей вознаграждения (reward models). В чем суть новой технологии SPCT объединяет два подхода для улучшения процесса "рассуждения" моделей: 1. Генеративное моделирование вознаграждения (GRM) - вместо выдачи простой оценки, модель генерирует текстовые критические замечания, которые затем преобразуются в оценки 2. Самопринципиальная настройка критики (SPCT) - модель учится самостоятельно формулировать принципы оценки и критерии на основе запроса и ответов Исследователи DeepSeek выявили четыре ключевые проблемы при создании универсальных моделей вознаграждения: - Гибкость ввода: Модель должна о
DeepSeek представила новую технологию обучения reasoning-моделей: Self-Principled Critique Tuning
10 апреля 202510 апр 2025
1
3 мин