Новый метод DeepSeek должен сделать обучение больших ИИ-моделей надежнее
Специалисты компании DeepSeek представили новый метод обучения больших языковых моделей, направленный на решение ключевой проблемы индустрии — высокой нестабильности и дороговизны тренировочных процессов, сообщает ИА «Красная Весна».Regions.ru
Как отмечают разработчики, продвинутые модели ИИ часто терпят неудачу в процессе обучения, что вынуждает компании начинать дорогостоящие циклы тренировок практически с нуля.Regions.ru
Технология представляет собой развитие базового метода гиперсвязей, который был предложен исследователями ByteDance в сентябре 2024 года как модификация архитектуры ResNet (Residual Networks).Regions.ru
Метод, названный «многообразие-ограниченная гиперсвязь» (manifold-constrained hyperconnection, mHC), направлен на то, чтобы сделать обучение больших моделей ИИ более простым и надежным.RuTab.net