Сегодня китайская лаборатория, которая год назад обрушила акции NVIDIA, представила сразу две модели: DeepSeek-V4-Pro (1.6T параметров, 49B активных) и DeepSeek-V4-Flash (284B параметров, 13B активных). Обе — Mixture-of-Experts, обе с контекстным окном в 1 миллион токенов, обе под лицензией Apache 2.0 с открытыми весами на Hugging Face. Главная инновация — гибридная архитектура внимания, которую они назвали Compressed Sparse Attention + Heavily Compressed Attention. На практике это означает, что при контексте в 1M токенов V4-Pro требует лишь 27% FLOPs и 10% KV-кэша по сравнению с предыдущей V3.2. По бенчмаркам V4-Pro бьёт все существующие open-source модели и вплотную подбирается к закрытым лидерам. ▫️На Codeforces модель набирает 3206 — это выше GPT-5.4. ▫️На SWE-Verified (реальные баги на GitHub) — 80.6, практически наравне с Claude Opus 4.6. ▫️На математических бенчмарках вроде IMOAnswerBench — 89.8, уступая только GPT-5.4. ▫️При этом в задачах на общие знания модель пока отстаёт