136 подписчиков

🔗 mHC: как DeepSeek решила проблему нестабильности глубоких нейросетей

5 января5 янв

3 мин

📅 31 декабря 2025 года команда DeepSeek-AI опубликовала исследование mHC (Manifold-Constrained Hyper-Connections) — новый подход к архитектуре нейросетей, который делает обучение больших моделей стабильнее и эффективнее. 📍 В чём была проблема Последние годы архитектура нейросетей практически не менялась — все используют классическое residual connection (остаточное соединение), предложенное ещё в ResNet в 2016 году. Формула простая: выход = вход + изменения Это работает, но не даёт пространства для улучшений. Недавно появился подход Hyper-Connections (HC) — вместо одного потока данных используется несколько параллельных, что увеличивает производительность модели. Проблема HC: При масштабировании на большие модели возникает серьёзная нестабильность обучения — сигнал либо взрывается, либо затухает при прохождении через слои. ⚡️ Что предложили в DeepSeek Исследователи создали mHC (Manifold-Constrained Hyper-Connections) — улучшенную версию HC, которая решает проблему нестабильности

📍 В чём была проблема

Последние годы архитектура нейросетей практически не менялась — все используют классическое residual connection (остаточное соединение), предложенное ещё в ResNet в 2016 году.

Формула простая: выход = вход + изменения

Это работает, но не даёт пространства для улучшений. Недавно появился подход Hyper-Connections (HC) — вместо одного потока данных используется несколько параллельных, что увеличивает производительность модели.

Проблема HC: При масштабировании на большие модели возникает серьёзная нестабильность обучения — сигнал либо взрывается, либо затухает при прохождении через слои.

⚡️ Что предложили в DeepSeek

Исследователи создали mHC (Manifold-Constrained Hyper-Connections) — улучшенную версию HC, которая решает проблему нестабильности математически строгим способом.

Ключевая идея: Ограничить матрицы связей специальным условием — они должны быть doubly stochastic (дважды стохастическими).

Звучит сложно, но смысл простой:

Каждая строка и столбец матрицы суммируется в 1. Это превращает операцию в взвешенное усреднение — сигнал не может ни взорваться, ни исчезнуть, он просто перераспределяется между потоками.

🔬 Как это работает технически

Алгоритм Синкхорна-Кноппа:

Используется для проецирования матриц связей на множество дважды стохастических матриц (Birkhoff polytope). 20 итераций алгоритма достаточно для практической точности.

Три свойства, которые обеспечивают стабильность:

1️⃣Сохранение нормы — спектральная норма матрицы ≤1, сигнал не усиливается неограниченно

2️⃣Композиционная замкнутость — произведение дважды стохастических матриц остаётся дважды стохастическим

3️⃣Геометрическая интерпретация — операция представляет выпуклую комбинацию перестановок

📊 Результаты экспериментов

Исследователи протестировали mHC на моделях размером от 3B до 27B параметров с MoE-архитектурой (по типу DeepSeek-V3).

Стабильность обучения:

🔺HC показывает скачки loss и градиентов на 12K шаге

🔺mHC демонстрирует плавную сходимость без нестабильностей

🔺Amax Gain Magnitude (показатель усиления сигнала): HC достигает 3000, mHC остаётся около 1.6

Производительность:

🔺-0.021 улучшение loss на 27B модели по сравнению с baseline

🔺Результаты стабильны при масштабировании от 3B до 27B

🔺Работает на 8 разных бенчмарках (BBH, DROP, GSM8K, HellaSwag, MATH, MMLU, PIQA, TriviaQA)

Лучший результат: На BBH (сложные рассуждения) mHC показывает 51.0% против 43.8% у baseline — прирост на 7.2 процентных пункта.

🛠 Эффективность реализации

DeepSeek не просто предложили идею, но и оптимизировали её для практического использования.

Kernel Fusion:

Все операции mHC объединены в оптимизированные CUDA-ядра с mixed precision (tfloat32/bfloat16/float32)

Recomputing:

Промежуточные активации пересчитываются в backward pass вместо хранения — экономия памяти без потери скорости

DualPipe Integration:

mHC интегрирована в DualPipe schedule для эффективного pipeline parallelism

Итоговый overhead: Всего +6.7% времени обучения при expansion rate n=4 — это ничтожная цена за повышение стабильности и качества.

💡 Что это значит для индустрии

Топология связей важна: mHC доказывает, что улучшение архитектуры связей между слоями даёт серьёзный прирост качества — фокус не только на micro-design (внимание, FFN), но и на macro-design.

Масштабируемость: Работает от 3B до 27B+ параметров без деградации — редкость для архитектурных инноваций. Особенно важно при обучении моделей 100B+, где нестабильность стоит миллионы долларов.

Открытость: DeepSeek публикует детальные технические отчёты с воспроизводимыми результатами — вклад в развитие open science.

📄 Исследование: https://arxiv.org/abs/2512.24880

#AIWiz #DeepSeek #NeuralArchitecture

Гаджеты и электроника

5,73 млн интересуются