DeepSeek представила mHC (Manifold-Constrained Hyper-Connections) — архитектурное улучшение трансформера, которое позволяет масштабировать модели, сохраняя стабильность внутреннего обмена информацией. Residual-соединения — это базовый элемент трансформеров, при котором вход слоя добавляется к его выходу, обеспечивая стабильное прохождение сигнала через глубокую сеть. В 2024 году ByteDance предложила расширение — Hyper-Connections, где остаточная информация передается по нескольким параллельным путям. Это позволяет потокам обмениваться информацией и дает умеренный прирост качества, но приводит к неконтролируемому усилению сигнала и росту вычислительных затрат. Подход DeepSeek заключается во введении строгих математических ограничений пространства residual-соединений, которые сохраняют баланс и устойчивость архитектуры без потери сложности. Почему это важно: mHC обеспечивает более насыщенный обмен внутренними данными при сохранении стабильности обучения и контролируемых затрат.По неофици