DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом TNG Technology Consulting представила DeepSeek-TNG R1T2 Chimera — новую модель Assembly-of-Experts (AoE), сочетающую интеллект и скорость благодаря инновационной стратегии объединения моделей. Assembly-of-Experts: эффективная композиция моделей в масштабе Традиционное обучение и тонкая настройка больших языковых моделей (LLM) требуют огромных вычислительных ресурсов. TNG решает эту проблему с помощью подхода Assembly-of-Experts (AoE), объединяя крупномасштабные модели Mixture-of-Experts (MoE) на уровне весовых тензоров без переобучения. Эта стратегия позволяет создавать новые модели с линейным временем, которые наследуют возможности от нескольких родительских моделей. Архитектура R1T2 сочетает экспертные тензоры от R1 с базой V3-0324 и выборочно включает улучшения от R1-0528, оптимизируя соотношение между стоимостью вывода и качеством рассуждений. Прирост скорости и компромиссы в интеллекте
DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом
3 июля 20253 июл 2025
2 мин