Найти в Дзене
Машинное обучение

🐳 DeepSeek начал новый год с серьёзной статьи

В первый день года команда представила работу, посвящённую одной из самых болезненных проблем современных нейросетей: нестабильности обучения в сложных архитектурах. И предложили решение: подход под названием mHC (Manifold-Constrained Hyper-Connections). Смысл в том, что исследователи взяли мощную, но нестабильную архитектуру Hyper-Connections и ввели ограничения на внутренние связи. 1. Проекция на многообразие (manifold) Вместо того, чтобы оставлять Hyper-Connections свободными, mHC накладывает на них ограничение, они проектируются на особое многообразие (матрицы с особыми свойствами). Это восстанавливает identity-mapping, благодаря чему сигнал остаётся устойчивым даже через десятки или сотни слоёв. 2. Стабильность и масштабируемость Благодаря этому ограничению сеть перестаёт «взрывать» или «затухать» сигнал при глубоком обучении, и её можно эффективно использовать в больших моделях без ухудшения качества и без сложных ухищрений. 3. Инфраструктурные оптимизации Авторы также добав

🐳 DeepSeek начал новый год с серьёзной статьи.

В первый день года команда представила работу, посвящённую одной из самых болезненных проблем современных нейросетей: нестабильности обучения в сложных архитектурах.

И предложили решение: подход под названием mHC (Manifold-Constrained Hyper-Connections).

Смысл в том, что исследователи взяли мощную, но нестабильную архитектуру Hyper-Connections и ввели ограничения на внутренние связи.

1. Проекция на многообразие (manifold)

Вместо того, чтобы оставлять Hyper-Connections свободными, mHC накладывает на них ограничение, они проектируются на особое многообразие (матрицы с особыми свойствами).

Это восстанавливает identity-mapping, благодаря чему сигнал остаётся устойчивым даже через десятки или сотни слоёв.

2. Стабильность и масштабируемость

Благодаря этому ограничению сеть перестаёт «взрывать» или «затухать» сигнал при глубоком обучении, и её можно эффективно использовать в больших моделях без ухудшения качества и без сложных ухищрений.

3. Инфраструктурные оптимизации

Авторы также добавили инженерные улучшения:

- слияние ядер (kernel fusion)

- уменьшение накладных расходов по памяти

- эффекты смешанной точности

Это делает mHC быстрым и эффективным в реальных задачах даже при масштабных тренировках.

Результат впечатляет:

• обучение становится стабильнее на крупных масштабах

• модели лучше масштабируются

• повышается производительность

• снижается потребление памяти

• mHC обгоняет классические Hyper-Connections

Другими словами, DeepSeek показывает, что путь в будущее - не только большие модели, но и архитектуры, которые устойчивы изнутри.

#AI #DeepSeek #MachineLearning #NeuralNetworks #Research

https://arxiv.org/abs/2512.24880

Deep Seek
20,9 тыс интересуются