Специалисты компании DeepSeek представили новый метод обучения больших языковых моделей, направленный на решение ключевой проблемы индустрии — высокой нестабильности и дороговизны тренировочных процессов, сообщает ИА «Красная Весна». Разработанный метод получил название «гиперсвязь, ограниченная многообразием». Вместо традиционной погони за максимальной производительностью, подход сосредоточен на повышении надежности и предсказуемости обучения сложных нейросетевых архитектур. Как отмечают разработчики, продвинутые модели ИИ часто терпят неудачу в процессе обучения, что вынуждает компании начинать дорогостоящие циклы тренировок практически с нуля. Новая методика призвана минимизировать эти риски, обеспечивая более плавную и управляемую оптимизацию параметров модели. Технология представляет собой развитие базового метода гиперсвязей, который был предложен исследователями ByteDance в сентябре 2024 года как модификация архитектуры ResNet (Residual Networks). Исходная архитектура ResNet, пр