DeepSeek представила свою новейшую экспериментальную модель DeepSeek-V3.2-Exp, которая знаменует сразу несколько технологических прорывов: уникальная система внимания DeepSeek Sparse Attention (DSA), открытый исходный код и использование отечественного языка для GPU-ядра TileLang. Эти новшества уже вызвали широкий резонанс в AI-сообществе и среди разработчиков. Инновации в архитектуре: DeepSeek Sparse Attention (DSA) Главное технологическое достижение DeepSeek-V3.2-Exp — внедрение фирменной системы внимания DSA, разработанной совместно с Пекинским университетом и отмеченной как лучшая статья на ACL 2025. В отличие от классических механизмов, где каждый токен анализирует всю последовательность, DSA использует «молниеносный индексатор» (lightning indexer), который быстро определяет наиболее важные предыдущие токены и выбирает только их для дальнейших вычислений. Это снижает вычислительную сложность с O(L²) до O(Lk), где k — фиксированное небольшое число. Преимущества DSA: Модель проходит
DeepSeek-V3.2-Exp: новая эра ИИ — уникальная система внимания, открытый код и отечественный TileLang
30 сентября 202530 сен 2025
3
3 мин