Китайская компания DeepSeek представила флагманскую языковую модель V4 в двух версиях — Pro и Flash. Обе построены на архитектуре Mixture of Experts (MoE) и доступны бесплатно в веб-чате и мобильном приложении DeepSeek, где режим Instant соответствует V4-Flash, а режим Expert — V4-Pro. Разработчики могут получить доступ к моделям через API по цене от 0,2 рубля за миллион токенов для Flash-версии при кешированном вводе. Модели опубликованы на Hugging Face под лицензией MIT.
DeepSeek-V4-Pro содержит 1,6 трлн параметров, из которых при ответе на запрос активируются 49 млрд, а V4-Flash имеет 284 млрд параметров с активацией 13 млрд. Обе модели поддерживают контекстное окно в 1 млн токенов — этого объёма достаточно, чтобы за один раз обработать текст, эквивалентный трилогии «Три тела». Разработчики внедрили новую гибридную механизм внимания CSA (Compressed Sparse Attention), который в режиме 1 млн токенов сокращает вычислительные затраты V4-Pro до 27% по сравнению с предыдущей версией V3.