629 читали · 5 дней назад
🐳 DeepSeek начал новый год с серьёзной статьи
В первый день года команда представила работу, посвящённую одной из самых болезненных проблем современных нейросетей: нестабильности обучения в сложных архитектурах. И предложили решение: подход под названием mHC (Manifold-Constrained Hyper-Connections). Смысл в том, что исследователи взяли мощную, но нестабильную архитектуру Hyper-Connections и ввели ограничения на внутренние связи. 1. Проекция на многообразие (manifold) Вместо того, чтобы оставлять Hyper-Connections свободными, mHC накладывает на них ограничение, они проектируются на особое многообразие (матрицы с особыми свойствами)...