☹️ Выкатили MiniMax M3. По заявленным бенчмаркам (SWE-Bench Pro 59.0%) они бьют Gemini 3.1 Pro, GPT-5.5 и дышат в спину Claude Opus 4.7. Но мы с вами знаем реальную цену синтетическим пузомеркам. Намного интереснее то, что у модели под капотом, и как разработчики решили монетизировать этот праздник интеллекта. Инженерно ребята сделали очень крутую вещь — замахнулись на честный и рабочий 1M контекст. Чтобы избежать проклятия квадратичной сложности классического attention, они выкатили свою архитектуру — MSA (MiniMax Sparse Attention). Суть в умной предварительной фильтрации: KV бьется на блоки, читается ровно один раз, а память запрашивается непрерывно. 👉🏻 На практике это означает, что на контексте в 1M вычисления на токен стали в 20 раз дешевле, чем у их прошлой модели. Второй важный момент — фокус на долгосрочных агентских задачах. Большинство текущих тестов кодеров — это одноразовая генерация бойлерплейта. MiniMax же обучали модель на интерактивном симуляторе многошаговой коллаб
MiniMax M3: 1М контекста, Sparse Attention и конец китайской халявы
2 дня назад2 дня назад
2 мин