В первый день года команда представила работу, посвящённую одной из самых болезненных проблем современных нейросетей: нестабильности обучения в сложных архитектурах. И предложили решение: подход под названием mHC (Manifold-Constrained Hyper-Connections). Смысл в том, что исследователи взяли мощную, но нестабильную архитектуру Hyper-Connections и ввели ограничения на внутренние связи. 1. Проекция на многообразие (manifold) Вместо того, чтобы оставлять Hyper-Connections свободными, mHC накладывает на них ограничение, они проектируются на особое многообразие (матрицы с особыми свойствами). Это восстанавливает identity-mapping, благодаря чему сигнал остаётся устойчивым даже через десятки или сотни слоёв. 2. Стабильность и масштабируемость Благодаря этому ограничению сеть перестаёт «взрывать» или «затухать» сигнал при глубоком обучении, и её можно эффективно использовать в больших моделях без ухудшения качества и без сложных ухищрений. 3. Инфраструктурные оптимизации Авторы также добав