33 подписчика

DeepSeek-V3.2-Exp: новая эра ИИ — уникальная система внимания, открытый код и отечественный TileLang

30 сентября 202530 сен 2025

3 мин

DeepSeek представила свою новейшую экспериментальную модель DeepSeek-V3.2-Exp, которая знаменует сразу несколько технологических прорывов: уникальная система внимания DeepSeek Sparse Attention (DSA), открытый исходный код и использование отечественного языка для GPU-ядра TileLang. Эти новшества уже вызвали широкий резонанс в AI-сообществе и среди разработчиков. Инновации в архитектуре: DeepSeek Sparse Attention (DSA) Главное технологическое достижение DeepSeek-V3.2-Exp — внедрение фирменной системы внимания DSA, разработанной совместно с Пекинским университетом и отмеченной как лучшая статья на ACL 2025. В отличие от классических механизмов, где каждый токен анализирует всю последовательность, DSA использует «молниеносный индексатор» (lightning indexer), который быстро определяет наиболее важные предыдущие токены и выбирает только их для дальнейших вычислений. Это снижает вычислительную сложность с O(L²) до O(Lk), где k — фиксированное небольшое число. Преимущества DSA: Модель проходит

Инновации в архитектуре: DeepSeek Sparse Attention (DSA)

Главное технологическое достижение DeepSeek-V3.2-Exp — внедрение фирменной системы внимания DSA, разработанной совместно с Пекинским университетом и отмеченной как лучшая статья на ACL 2025. В отличие от классических механизмов, где каждый токен анализирует всю последовательность, DSA использует «молниеносный индексатор» (lightning indexer), который быстро определяет наиболее важные предыдущие токены и выбирает только их для дальнейших вычислений. Это снижает вычислительную сложность с O(L²) до O(Lk), где k — фиксированное небольшое число.

Преимущества DSA:

Существенное ускорение обучения и вывода на длинных текстах.
Снижение затрат на инфраструктуру без потери качества генерации.
В тестах модель показала ту же производительность, что и предыдущая версия с плотным вниманием (V3.1-Terminus), как на коротких, так и на длинных задачах.

Модель проходит этап «плотного разогрева», чтобы lightning indexer научился имитировать старую схему внимания, затем — этап обучения с разреженным вниманием, а после — стандартные процедуры дообучения и оптимизации.

TileLang: отечественный язык для GPU-ускорения

В релизе DeepSeek v3.2 впервые открыто использован TileLang — специализированный язык для создания высокопроизводительных GPU/CPU-операторов, разработанный командой Пекинского университета. TileLang сочетает лаконичный синтаксис в стиле Python с мощной компиляторной базой на TVM, поддерживает три уровня интерфейса (от новичков до экспертов) и позволяет отделить описание вычислений от оптимизаций, что ускоряет разработку и облегчает переносимость между аппаратными платформами.

Почему это важно:

TileLang уже поддерживается отечественными GPU, включая Huawei Ascend, и показал производительность выше Flash Attention 2 при меньшем объёме кода.
DeepSeek использует TileLang для быстрого прототипирования и оптимизации ключевых операторов, а затем дорабатывает их низкоуровневыми средствами для максимальной производительности.
Такой подход позволил ускорить работу lightning indexer в DSA и повысить общую эффективность модели.

Открытость и экономический эффект

DeepSeek-V3.2-Exp полностью открыта для сообщества: исходный код доступен на Huggingface и 魔搭, а также интегрирован во все официальные приложения и веб-сервисы DeepSeek. Благодаря оптимизации и снижению затрат на обслуживание, DeepSeek снизила цены на API более чем на 50%, сделав использование модели ещё доступнее для разработчиков и исследователей.

Контекст развития

В августе 2025 года DeepSeek выпустила версию V3.1 с гибридной архитектурой и улучшенной агентной функциональностью. В сентябре вышла версия V3.1-Terminus с доработками по стабильности, языковой согласованности и улучшением работы интеллектуальных агентов. DeepSeek-V3.2-Exp, несмотря на новые технологии, по качеству генерации практически не уступает предыдущей версии, что подтверждено на открытых тестовых наборах.

Влияние на индустрию

Открытое использование TileLang DeepSeek стало важным событием для китайской AI-индустрии:

Поддержка отечественных GPU и экосистемы
Упрощение и ускорение разработки ИИ-операторов
Рост интереса к открытым и независимым инструментам

Вывод

DeepSeek-V3.2-Exp — это шаг к преодолению «бутылочного горлышка» длинных текстов в больших языковых моделях: производительность не падает, а стоимость и время обработки существенно сокращаются. DeepSeek становится флагманом в использовании современных отечественных языков для разработки ИИ, а TileLang быстро набирает популярность и может стать новым стандартом для высокопроизводительных вычислений в Китае.

Технический отчёт DeepSeek V3.2
TileLang на GitHub

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/