Подходит для обычных моделей ИИ и MoE.
Открытая неделя DeepSeek уже идет третий день (отчеты за первые два дня см. в "Связанном чтении" в конце). Сегодняшний проект с открытым исходным кодом называется DeepGEMM, это библиотека FP8 GEMM, поддерживающая плотные и экспертные смешанные (MoE) GEMM, которая обеспечивает поддержку обучения и вывода V3/R1, достигая вычислительной производительности 1350+ FP8 TFLOPS на GPU Hopper.
Конкретно, DeepGEMM - это библиотека, направленная на реализацию лаконичного и эффективного универсального матричного умножения (GEMM) в FP8, используя технологию мелкозернистого масштабирования, предложенную в DeepSeek-V3. Библиотека поддерживает обычный GEMM, а также групповой GEMM со смешением экспертов (MoE). Она написана на CUDA и не требует компиляции при установке, а вместо этого компилирует все ядра во время выполнения через легковесный модуль Just-In-Time (JIT).
В настоящее время DeepGEMM поддерживает только тензорные ядра NVIDIA Hopper. Чтобы решить проблему неточного накопления FP8 тензорных ядер, он использует двухуровневый механизм накопления (повышения) ядер CUDA. Хотя он заимствует некоторые концепции из CUTLASS и CuTe, он избегает сильной зависимости от их шаблонов или алгебры. Вместо этого библиотека разработана с акцентом на простоту, содержащую только одну основную функцию ядра всего из 300 строк кода. Это делает ее лаконичным и доступным ресурсом для изучения матричного умножения FP8 Hopper и методов оптимизации.
Несмотря на легкий дизайн, производительность DeepGEMM сравнима с экспертно настроенными библиотеками для различных форм матриц и в некоторых случаях даже лучше.
Репозиторий открытого исходного кода:
https://github.com/deepseek-ai/DeepGEMM
Ранние пользователи отзываются, что "DeepGEMM звучит как супергерой из мира математики. Он быстрее скоростного калькулятора и мощнее полиномиальных уравнений. Я попробовал его, и теперь мой GPU хвастается своими 1350+ TFLOPS, как будто готов участвовать в олимпиаде по ИИ!"
Эта вычислительная мощность в сочетании с качественными данными может принести еще больше удивительных результатов?
Помимо производительности, многих удивляет то, что "300 строк кода превосходят по производительности ядра, настроенные экспертами". Некоторые считают, что "либо DeepSeek разгадал тайну матриц GPU, либо мы только что стали свидетелями компиляторной магии высшего уровня."
Похоже, в команде DeepSeek есть группа элитных GPU-инженеров, владеющих таинственными приемами компиляторов.
Другие отмечают: "DeepGEMM меняет наш подход к использованию библиотек FP8 GEMM - она лаконична, быстра и открыта. Это будущее вычислений для ИИ."
В списке авторов проекта заметили инженера по фамилии Liang - возможно, это основатель DeepSeek Вэньфэн Лян (достоверность требует подтверждения)?
Производительность
DeepSeek протестировал на H800 с NVCC 12.8 все формы, которые могут использоваться в выводе DeepSeek-V3/R1 (включая предварительное заполнение и декодирование, но исключая тензорный параллелизм), достигнув ускорения до 2,7 раза. Все показатели ускорения основаны на внутренней тщательно оптимизированной реализации CUTLASS 3.6.
Однако, согласно описанию проекта, DeepGEMM показывает не лучшие результаты на некоторых формах.
Быстрый старт
Сначала необходимы следующие конфигурации:
GPU архитектуры Hopper, должен поддерживать sm_90a;
Python 3.8 или выше;
CUDA 12.3 или выше, но для наилучшей производительности DeepSeek настоятельно рекомендует использовать 12.8 или выше;
PyTorch 2.1 или выше;
CUTLASS 3.6 или выше (может быть клонирован через Git подмодуль).
После настройки конфигурации следует развертывание:
```
Submodule must be cloned
git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git
Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop
Test JIT compilation
python tests/test_jit.py
Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py ```
Затем установка:
python setup.py install
Наконец, импортируйте deep_gem в ваш Python-проект, и можно приступать к использованию.
Дополнительную информацию см. в репозитории GitHub с открытым исходным кодом.
Reuters: Большая модель DeepSeek R2 опередит график, выйдет до мая
В то время как DeepSeek активно открывает исходный код, люди также ищут информацию о следующем поколении крупных моделей компании. Вчера вечером Reuters внезапно сообщил, что DeepSeek может выпустить следующее поколение модели R2 до мая, что вызвало значительный интерес.
По словам нескольких информированных источников, DeepSeek ускоряет выпуск следующей версии своей крупной модели R1 с улучшенным выводом. Двое из них указали, что DeepSeek первоначально планировал выпустить R2 в начале мая, но теперь стремится выпустить ее раньше. DeepSeek надеется, что новая модель будет иметь улучшенные возможности генерации кода и сможет делать выводы на языках помимо английского.
Очевидно, после выхода конкурирующих продуктов Grok 3, Claude 3.7, Qwen 2.5-Max, DeepSeek снова ускорил темп технологического развития.
Стоит отметить, что СМИ также рассказали о некоторых аспектах компании. Офис DeepSeek в Пекине расположен недалеко от университетов Цинхуа и Пекинского (в пешей доступности). По словам двух бывших сотрудников, Вэньфэн Лян часто глубоко погружается в технические детали с инженерами и охотно работает со стажерами и недавними выпускниками. Они также описали обычный восьмичасовой рабочий день в совместной атмосфере.
По словам трех человек, знакомых с ситуацией с зарплатами в DeepSeek, и HuanFang Quantitative, и DeepSeek известны своими щедрыми компенсациями. Кто-то отметил, что годовая зарплата старших специалистов по данным в HuanFang в 1,5 миллиона юаней не редкость, в то время как у конкурентов компенсации редко превышают 800 000 юаней.
HuanFang был ранним пионером в области ИИ-трейдинга, и один из руководителей компании еще в 2020 году заявил, что они "полностью переходят" на искусственный интеллект, инвестируя 70% доходов компании в исследования ИИ. Компания потратила 1,2 миллиарда юаней на создание двух суперкомпьютерных кластеров ИИ в 2020 и 2021 годах. Второй кластер, Fire-Flyer II, состоит из примерно десяти тысяч чипов NVIDIA A100 и в основном используется для обучения моделей ИИ.
После выпуска моделей DeepSeek V3 и R1 мировые ожидания от технологий ИИ достигли пика. Технологические компании активно усваивают новые технологии, предложенные DeepSeek, корректируя направления развития, а потребители начинают экспериментировать с различными генеративными ИИ-приложениями.
Возможно, следующий релиз DeepSeek станет очередным ключевым моментом для отрасли ИИ.
Источники:
https://www.reuters.com/technology/artificial-intelligence/deepseek-rushes-launch-new-ai-model-china-goes-all-2025-02-25/
Александр — сооснователь RockAPI, эксперт в области ИИ и разработки API. RockAPI предоставляет неограниченный доступ к передовым моделям ИИ, таким как DeepSeek, GPT-4o, Claude и Gemini, с простой интеграцией и гибкими способами оплаты. Зарегистрируйтесь на https://www.rockapi.ru/ и получите бесплатный стартовый кредит для новых пользователей — начните свое путешествие в мир ИИ уже сегодня!