📰 DeepSeek V4 Flash разгоняют до 85%: DSpark — открытый фреймворк, который заставит LLM отвечать быстрее, чем вы моргнете

СегодняСегодня

2 мин

Пока геополитические баталии вокруг ИИ накаляются — особенно после того, как правительство США взялось ограничивать новые модели Anthropic и OpenAI — китайский open-source любимец DeepSeek снова ворвался в игру. На этот раз с открытым релизом, который может перекроить глобальную разработку ИИ. В минувшие выходные компания выпустила DSpark — новую систему под лицензией MIT, которая заставляет большие языковые модели отвечать быстрее, не меняя сути их ответов. Проще всего представить это так: большинство AI-чатботов пишут текст, как человек, переходящий реку по камням — один шаг за раз. Сначала один маленький кусочек текста, потом следующий, потом ещё один. DSpark даёт системе «разведчика», который бежит на несколько шагов вперёд, угадывает вероятный путь и позволяет основной модели быстро проверить, какие шаги безопасны. Если догадки верны — модель движется быстрее. Если слабы — DSpark старается не тратить время на их проверку. DeepSeek опубликовал работу вместе с технической статьёй,

Проще всего представить это так: большинство AI-чатботов пишут текст, как человек, переходящий реку по камням — один шаг за раз. Сначала один маленький кусочек текста, потом следующий, потом ещё один. DSpark даёт системе «разведчика», который бежит на несколько шагов вперёд, угадывает вероятный путь и позволяет основной модели быстро проверить, какие шаги безопасны. Если догадки верны — модель движется быстрее. Если слабы — DSpark старается не тратить время на их проверку.

DeepSeek опубликовал работу вместе с технической статьёй, контрольными точками модели и DeepSpec — кодовой базой для обучения и оценки спекулятивных систем декодирования. Релиз доступен на публичных GitHub и Hugging Face страницах DeepSeek под либеральной лицензией MIT, что делает новую технику широко доступной для разработчиков, исследователей и коммерческих предприятий, желающих изучить или адаптировать подход.

Система нацелена на одну из самых дорогих проблем развёртывания ИИ: обслуживать большие модели достаточно быстро для реальных пользователей, используя оборудование достаточно эффективно, чтобы экономика сошлась. Это критично для потребительских чатботов, ассистентов кода, агентных рабочих процессов и корпоративных AI-систем, где пользователи ожидают, что длинные ответы будут стримиться быстро, а не вылезать слово за словом.

DeepSeek применяет DSpark к своей собственной последней frontier open-модели — DeepSeek-V4. Конкретно: новый фреймворк DSpark натянут на DeepSeek-V4-Flash — уже оптимизированную по скорости 284-миллиардную модель со смесью экспертов и 13 миллиардами активных параметров — и на DeepSeek-V4-Pro, более глубокую и мощную 1,6-триллионную модель с 49 миллиардами активных параметров (обе поддерживают контекстные окна до миллиона токенов). Но глобальный смысл в том, что DSpark концептуально не ограничен DeepSeek-V4. Собственные тесты и выпущенные контрольные точки DeepSeek покрывают и другие семейства открытых моделей: Alibaba Qwen и Google Gemma с открытыми весами. Это значит, что корпоративные команды, работающие с open-weight моделями, в принципе могут обучать или донастраивать DSpark-подобные модули-черновики для своих целевых моделей. Это не переключатель, который любой API-клиент может щёлкнуть снаружи, но метод, который можно перенести на другие модели, если оператор контролирует веса и стек обслуживания.

Ошеломляющий прирост скорости генерации токенов во время инференса

В живых производственных тестах DeepSeek совокупная пропускная способность DSpark выросла на 51% для DeepSeek-V4-Flash при целевом показателе 80 токенов/с на пользователя и на 52% для DeepSeek-V4-Pro при 35 токенов/с на пользователя. При одинаковой загрузке системы DeepSeek сообщает об ускорении генерации на пользователя от 60% до 85% для V4-Flash и от 57% до 78% для V4-Pro по сравнению с предыдущим производственным базовым уровнем MTP-1.

Разные цифры скорости измеряют разное....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут