Добавить в корзинуПозвонить
Найти в Дзене
OVERCLOCKERS.RU

Китайский стартап создал мощную языковую модель, сократив вычислительные затраты на 90%

Источник изображения: Forschungszentrum Jülich GmbH Китайская компания DeepSeek, специализирующаяся на искусственном интеллекте, объявила о значительном технологическом достижении. Как сообщает Tom's Hardware, им удалось разработать модель искусственного интеллекта, сопоставимую по возможностям с ведущими аналогами от таких гигантов, как OpenAI, Meta и Anthropic, используя при этом в 11 раз меньше вычислительных ресурсов. Несмотря на санкции США, ограничивающие доступ Китая к передовым ИИ чипам, местные учёные находят способы максимизировать производительность имеющегося оборудования. DeepSeek обучила свою языковую модель DeepSeek-V3, содержащую 671 миллиард параметров, на кластере, состоящем из 2,048 GPU Nvidia H800, всего за два месяца, что составило 2.8 миллиона GPU часов. Для сравнения, Meta потребовалось в 11 раз больше вычислительной мощности, чтобы обучить свою модель Llama 3. Такие результаты определённо говорят о том, что усилия по оптимизации реально могут компенсировать дефи

Источник изображения: Forschungszentrum Jülich GmbH

Китайская компания DeepSeek, специализирующаяся на искусственном интеллекте, объявила о значительном технологическом достижении. Как сообщает Tom's Hardware, им удалось разработать модель искусственного интеллекта, сопоставимую по возможностям с ведущими аналогами от таких гигантов, как OpenAI, Meta и Anthropic, используя при этом в 11 раз меньше вычислительных ресурсов. Несмотря на санкции США, ограничивающие доступ Китая к передовым ИИ чипам, местные учёные находят способы максимизировать производительность имеющегося оборудования. DeepSeek обучила свою языковую модель DeepSeek-V3, содержащую 671 миллиард параметров, на кластере, состоящем из 2,048 GPU Nvidia H800, всего за два месяца, что составило 2.8 миллиона GPU часов. Для сравнения, Meta потребовалось в 11 раз больше вычислительной мощности, чтобы обучить свою модель Llama 3. Такие результаты определённо говорят о том, что усилия по оптимизации реально могут компенсировать дефицит аппаратных ресурсов.DeepSeek применила ряд передовых технологий для достижения этих показателей. Среди них значится алгоритм DualPipe, который позволяет совмещать этапы вычислений и коммуникаций, значительно снижая неэффективность конвейерной обработки. Использование специализированных инструкций PTX для взаимодействия с GPU Nvidia также сыграло ключевую роль в оптимизации процесса обучения модели.Что касается снижения вычислительных и коммуникационных затрат, то здесь DeepSeek внедрила методы обучения с низкой точностью. В частности, была использована система FP8 со смешанной точностью, что позволило ускорить вычисления и уменьшить потребление памяти, сохраняя при этом стабильность численных результатов. Такие операции, как умножение матриц, выполнялись в FP8, в то время как более чувствительные части, такие как слои встраивания и нормализации, работали в более высокой точности.

📃 Читайте далее на сайте