Найти в Дзене
RockAPI.ru

DeepSeek открывает исходный код эффективного декодирующего ядра MLA: FlashMLA #OpenSourceWeek #Day1

Александр — сооснователь RockAPI, эксперт в области ИИ и разработки API. RockAPI предоставляет неограниченный доступ к передовым моделям ИИ, таким как DeepSeek, GPT-4o, Claude и Gemini, с простой интеграцией и гибкими способами оплаты. Зарегистрируйтесь на https://www.rockapi.ru/ и получите бесплатный стартовый кредит для новых пользователей — начните свое путешествие в мир ИИ уже сегодня! В прошлую пятницу DeepSeek объявил в Twitter, что эта неделя будет неделей открытого исходного кода (OpenSourceWeek), в течение которой компания последовательно откроет исходный код пяти библиотек. Первый проект, как и ожидалось, связан с ускорением вывода. В понедельник в 9 часов утра по пекинскому времени (когда Кремниевая долина готовилась ко сну) DeepSeek сдержал свое обещание и открыл исходный код эффективного декодера MLA для GPU Hopper: FlashMLA. Проект получил более 400 звезд всего за 45 минут после запуска! И на момент создания скриншота количество звезд продолжало стремительно расти. Ссыл
Оглавление
Александр — сооснователь RockAPI, эксперт в области ИИ и разработки API. RockAPI предоставляет неограниченный доступ к передовым моделям ИИ, таким как DeepSeek, GPT-4o, Claude и Gemini, с простой интеграцией и гибкими способами оплаты. Зарегистрируйтесь на https://www.rockapi.ru/ и получите бесплатный стартовый кредит для новых пользователей — начните свое путешествие в мир ИИ уже сегодня!

В прошлую пятницу DeepSeek объявил в Twitter, что эта неделя будет неделей открытого исходного кода (OpenSourceWeek), в течение которой компания последовательно откроет исходный код пяти библиотек.

Первый проект, как и ожидалось, связан с ускорением вывода. В понедельник в 9 часов утра по пекинскому времени (когда Кремниевая долина готовилась ко сну) DeepSeek сдержал свое обещание и открыл исходный код эффективного декодера MLA для GPU Hopper: FlashMLA.

Проект получил более 400 звезд всего за 45 минут после запуска! И на момент создания скриншота количество звезд продолжало стремительно расти.

-2

Ссылка на проект: https://github.com/deepseek-ai/FlashMLA

Как известно, MLA является важным технологическим новшеством в больших моделях DeepSeek, основная цель которого - уменьшить KV Cache при выводе, что позволяет обрабатывать более длинный контекст на меньшем количестве устройств, значительно снижая затраты на вывод.

Основные характеристики:

  • BF16
  • Страничный kvcache с размером блока 64

Скорость работы впечатляет: на GPU H800 SXM5 достигается предельная скорость памяти 3000 ГБ/с и вычислительная мощность 580 TFLOPS.

Требования для развертывания:

  • GPU Hopper
  • CUDA 12.3 или выше
  • PyTorch 2.0 или выше

Быстрый старт:

  • Установка:
python setup.py install
  • Тестирование производительности:
python tests/test_flash_mla.py

При использовании CUDA 12.6 на H800 SXM5 достигается скорость до 3000 ГБ/с в конфигурации с ограничением по памяти и 580 TFLOPS в конфигурации с ограничением по вычислениям.

Пример использования:

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata (cache_seqlens, s_q * h_q
//h_kv, h_kv)

for i in range (num_layers):...o_i, lse_i = flash_mla_with_kvcache (q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...

Проект получил восторженные отзывы сообщества.

-3

Некоторые пользователи даже шутят: "Говорят, на пятый день будет AGI".

-4

И в заключение: вот это действительно настоящий OpenAI.

-5

Александр — сооснователь RockAPI, эксперт в области ИИ и разработки API. RockAPI предоставляет неограниченный доступ к передовым моделям ИИ, таким как DeepSeek, GPT-4o, Claude и Gemini, с простой интеграцией и гибкими способами оплаты. Зарегистрируйтесь на https://www.rockapi.ru/ и получите бесплатный стартовый кредит для новых пользователей — начните свое путешествие в мир ИИ уже сегодня!