Вышел новый DeepSeek V4
Сегодня китайская лаборатория, которая год назад обрушила акции NVIDIA, представила сразу две модели: DeepSeek-V4-Pro (1.6T параметров, 49B активных) и DeepSeek-V4-Flash (284B параметров, 13B активных). Обе — Mixture-of-Experts, обе с контекстным окном в 1 миллион токенов, обе под лицензией Apache 2.0 с открытыми весами на Hugging Face. Главная инновация — гибридная архитектура внимания, которую они назвали Compressed Sparse Attention + Heavily Compressed Attention. На практике это означает, что при контексте в 1M токенов V4-Pro требует лишь 27% FLOPs и 10% KV-кэша по сравнению с предыдущей V3...