Найти в Дзене
SkyNet | Новости ИИ

DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом

DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом TNG Technology Consulting представила DeepSeek-TNG R1T2 Chimera — новую модель Assembly-of-Experts (AoE), сочетающую интеллект и скорость благодаря инновационной стратегии объединения моделей. Assembly-of-Experts: эффективная композиция моделей в масштабе Традиционное обучение и тонкая настройка больших языковых моделей (LLM) требуют огромных вычислительных ресурсов. TNG решает эту проблему с помощью подхода Assembly-of-Experts (AoE), объединяя крупномасштабные модели Mixture-of-Experts (MoE) на уровне весовых тензоров без переобучения. Эта стратегия позволяет создавать новые модели с линейным временем, которые наследуют возможности от нескольких родительских моделей. Архитектура R1T2 сочетает экспертные тензоры от R1 с базой V3-0324 и выборочно включает улучшения от R1-0528, оптимизируя соотношение между стоимостью вывода и качеством рассуждений. Прирост скорости и компромиссы в интеллекте

DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом

TNG Technology Consulting представила DeepSeek-TNG R1T2 Chimera — новую модель Assembly-of-Experts (AoE), сочетающую интеллект и скорость благодаря инновационной стратегии объединения моделей.

Assembly-of-Experts: эффективная композиция моделей в масштабе

Традиционное обучение и тонкая настройка больших языковых моделей (LLM) требуют огромных вычислительных ресурсов. TNG решает эту проблему с помощью подхода Assembly-of-Experts (AoE), объединяя крупномасштабные модели Mixture-of-Experts (MoE) на уровне весовых тензоров без переобучения. Эта стратегия позволяет создавать новые модели с линейным временем, которые наследуют возможности от нескольких родительских моделей.

Архитектура R1T2 сочетает экспертные тензоры от R1 с базой V3-0324 и выборочно включает улучшения от R1-0528, оптимизируя соотношение между стоимостью вывода и качеством рассуждений.

Прирост скорости и компромиссы в интеллекте

В сравнительных тестах R1T2 на 20 % быстрее R1 и более чем в два раза быстрее R1-0528. Эти показатели во многом обусловлены уменьшенной длиной выходных токенов и выборочной интеграцией экспертных тензоров. Хотя R1T2 немного уступает R1-0528 по уровню интеллекта, он значительно превосходит R1 по таким высокоуровневым бенчмаркам, как GPQA Diamond и AIME-2024/2025.

Более того, модель сохраняет... (далее обрывается).

Эмерджентные свойства в пространстве параметров

R1T2 подтверждает выводы из сопроводительной исследовательской работы о том, что объединение моделей может привести к созданию жизнеспособных моделей во всём пространстве интерполяции. Интересно, что свойства интеллекта изменяются постепенно, но поведенческие маркеры (например, последовательное использование) появляются резко при достижении определённого порога веса R1 в 50 %. Это указывает на то, что определённые черты находятся в отдельных подпространствах ландшафта весов LLM.

Объединяя только маршрутизируемые экспертные тензоры и оставляя другие компоненты (например, внимание и общие MLP) от V3-0324 без изменений, R1T2 поддерживает высокий уровень рассуждений, избегая при этом многословности. Такая конструкция приводит к тому, что TNG называет «консистентностью мысли-токена» — поведенческой чертой, при которой рассуждения являются не только точными, но и краткими.

Обратная связь сообщества Reddit

Первые обсуждения в сообществе LocalLLaMA на Reddit подчёркивают практическое впечатление от R1T2. Пользователи хвалят модель за оперативность, эффективность использования токенов и баланс между скоростью и связностью. Один из пользователей отметил: «Впервые модель Chimera ощущается как реальное улучшение как по скорости, так и по качеству». Другой указал, что модель лучше справляется с математически насыщенными контекстами по сравнению с предыдущими вариантами R1.

Некоторые участники Reddit также отметили, что R1T2 демонстрирует более обоснованную личность, более последовательно избегая галлюцинаций, чем модели R1 или на основе V3. Такие эмерджентные черты особенно актуальны для разработчиков, ищ...

Читать далее