Moonshot AI выложили в открытый доступ (open-source) Kimi K2.6 — и это не просто очередная итерация в гонке за бенчмарками. Это первая открытая модель, которая всерьёз метит не в «давай я тебе функцию напишу», а в позицию автономного инженера: 12+ часов непрерывного исполнения, 4000+ вызовов инструментов в рамках одной задачи, рой из 300 суб-агентов, координирующих 4000 шагов параллельно. Лицензия — Modified MIT, веса лежат на Hugging Face, поддержка с первого дня (day-0) в vLLM, SGLang, OpenRouter, Cloudflare Workers AI, MLX. Это уже не «китайцы догоняют», это другая стратегия.
Что под капотом
Архитектурно K2.6 — это разреженная модель из экспертов (MoE) на 1 триллион параметров с 32 млрд активных на токен. Под капотом 384 эксперта (8 маршрутизируемых + 1 общий), многоголовое латентное внимание (MLA), окно контекста 256K токенов, родная мультимодальность через MoonViT и встроенная квантизация INT4 для двукратного ускорения вывода (inference). То есть архитектура примерно той же логики, что у DeepSeek V3 и K2.5 — но с заметно более агрессивной ставкой на глубину разреженности и эффективность активных параметров.
Самое интересное — линейка вариантов в селекторе модели:
🧠 K2.6 Instant — для быстрых ответов без глубокого рассуждения
🤔 K2.6 Thinking — с включённым режимом рассуждений (thinking) и чередованием мыслей и вызовов инструментов
🛠️ K2.6 Agent — для исследований, генерации слайдов, сайтов, документов и таблиц
🐝 K2.6 Agent Swarm — для масштабного поиска, длинных текстов и пакетных (batch) задач
По сути, Moonshot выкатили не модель, а целый продукт со специализированными «ролями» — это уже больше похоже на то, как Anthropic выкатывает Claude с разными настройками, чем на типичный академический релиз модели.
Кодирование с длинным горизонтом (long-horizon coding): где модель реально показывает зубы
Есть два кейса, которые стоит разобрать отдельно — потому что по ним хорошо видно, чем «длинный горизонт» (long-horizon) отличается от «длинного контекста» (long-context).
Кейс 1: оптимизация exchange-core. K2.6 автономно отрефакторила 8-летний движок матчинга финансовых заявок с открытым исходным кодом. 13 часов непрерывного исполнения, 12 итераций стратегий оптимизации, более 1000 вызовов инструментов, изменено 4000+ строк кода. Что важно — модель не просто «попробовала разные параметры». Она проанализировала графики пламени (flame graphs) нагрузки на процессор и распределения памяти, нашла скрытые узкие места и переконфигурировала топологию ядерных потоков (thread topology) с 4ME+2RE на 2ME+1RE. Результат: рост средней пропускной способности (throughput) на 185% (с 0.43 до 1.24 MT/s) и пиковой производительности на 133% (с 1.23 до 2.86 MT/s). На уже оптимизированном движке.
Это та точка, где ты понимаешь, что речь не про «автодополнение (autocomplete) на стероидах». Решение про переконфигурацию топологии потоков — это не сопоставление с шаблонами из обучающих данных, это анализ профилировщика и системное проектирование.
Кейс 2: вывод на Zig. K2.6 на Mac скачала и развернула Qwen3.5-0.8B, реализовала и оптимизировала вывод на Zig — крайне нишевом языке, по которому в обучающей выборке не могло быть сильно много кода. 4000+ вызовов инструментов, 12+ часов исполнения, 14 итераций. Пропускная способность выросла с ~15 до ~193 токенов/сек — итог на ~20% быстрее, чем LM Studio.
Это и есть то самое обобщение за пределами обучающего распределения (out-of-distribution generalization), о котором все любят писать в научных работах. На практике оно почти никогда не работает. Здесь — сработало.
Рой агентов (Agent Swarm): тут самое интересное
Технически рой агентов — это горизонтальное масштабирование рассуждений. Вместо того чтобы делать одну глубокую цепочку рассуждений (reasoning chain), K2.6 динамически декомпозирует задачу на разнородные подзадачи, создаёт под каждую специализированного суб-агента и координирует их параллельно через общее состояние (shared state).
Масштабы по сравнению с K2.5:
📈 Параллельность: 300 суб-агентов против 100 у K2.5 (×3)
📈 Глубина: 4000 координированных шагов против 1500 (×2.7)
🎯 BrowseComp в режиме роя: 86.3 против 78.4 у K2.5
⏱️ Сквозная задержка (end-to-end latency): радикально снижена за счёт массивной параллелизации
Я в начале года собирал собственную мульти-агентную систему для генерации Lua-кода на LangGraph + Ollama + ChromaDB — и могу сказать честно: 300 агентов это не «100 + ещё 200». Это совсем другой класс задач координации. Когда у тебя 100 агентов, ты можешь грубо разрулить конфликты состояния через блокировки и очереди. На 300 ты обязан иметь нормальный координатор с отслеживанием зависаний (stall detection), автоматическим переназначением задач и валидацией промежуточных результатов. Moonshot всё это явно описали — и это, кстати, не маркетинг, а архитектурное требование, без которого 300 агентов просто превратятся в бардак.
Из забавного: модель умеет превращать любой качественный документ (PDF, презентация, таблица Excel) в навык (Skill) — переиспользуемый артефакт, в котором сохранена структурная и стилистическая ДНК исходника. Дальше можно генерить новые материалы того же качества и в том же стиле. Один из демо-кейсов — превращение астрофизической статьи в академический навык с последующей генерацией 40-страничной работы на 7000 слов, набора данных на 20 000 записей и 14 графиков.
Claw Groups: ставка на «приноси своего агента» (BYOA, bring your own agent)
Самая концептуально свежая фича в релизе — Claw Groups. Идея простая и от этого опасная: вы можете подключать в общее операционное пространство агентов с любых устройств, на любых моделях, с любыми инструментами и собственной памятью. K2.6 в центре этого роя выступает в роли адаптивного координатора— раздаёт задачи на основе профилей навыков агентов, отслеживает падения, переназначает задачи и контролирует жизненный цикл итоговых результатов (deliverables).
Если это взлетит, граница между «мой агент», «твой агент» и «наша команда» размывается полностью. Сами Moonshot уже тестируют это на себе (dogfooding) в собственной маркетинговой команде: специализированные агенты Demo Maker, Benchmark Maker, Social Media Agent, Video Maker — и K2.6 как дирижёр.
Бенчмарки: честный взгляд
Авторы справедливо хвастаются цифрами, и они действительно впечатляют:
📊 HLE-Full с инструментами: 54.0 (K2.6) против 52.1 (GPT-5.4), 53.0 (Claude Opus 4.6), 51.4 (Gemini 3.1 Pro) — открытая модель впереди всех
📊 SWE-Bench Pro: 58.6 против 57.7 / 53.4 / 54.2 — снова первое место
📊 BrowseComp: 83.2 против 82.7 / 83.7 / 85.9 — конкурентно
📊 Terminal-Bench 2.0: 66.7 против 65.4 / 65.4 / 68.5 — в плотной группе
📊 DeepSearchQA (f1): 92.5 против 78.6 у GPT-5.4 — заметный отрыв
📊 SWE-Bench Verified: 80.2 против 80.8 у Claude Opus 4.6 — практический паритет
Но есть и место, где видна ещё непокрытая разница. APEX-Agents от Artificial Analysis — независимый бенчмарк на длинные задачи через множество файлов и профессиональных инструментов — K2.5 показывал там 11.5%, K2.6 уже 27.9%. Это огромный скачок, но GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro всё ещё сидят в районе 32–33%. То есть разрыв сократился, но не закрылся.
Ещё важная деталь: на HLE без инструментов K2.6 показывает 34.7% — против 39.8 у GPT-5.4 и 44.4 у Gemini 3.1 Pro. Без инструментов модель отстаёт. Вся её сила раскрывается именно в агентном сценарии — там, где нужно правильно выбирать и комбинировать инструменты, держать контекст и не разваливаться через 200 шагов.
Моё мнение: что это значит для нас, инженеров
Самое важное в этом релизе — не сам K2.6. Самое важное — Moonshot фактически открыто заявили: главная ценность теперь не в весах модели, а в оркестровке (orchestration). Управляющий слой, который раздаёт задачи, ловит падения, переносит контекст между агентами и превращает модель в работающую программную организацию — вот это и есть новый дефицитный продукт.
Для меня как для практика это сразу ставит несколько важных вопросов:
⚙️ Происхождение (provenance). Когда агент трогает кодовую базу, ты обязан знать, какая модель работала. Кейс с Cursor Composer 2, в котором всплыла K2.5 без явного указания — отличный пример того, как открытость становится свойством безопасности
⚙️ Версионирование агентов. Если у тебя в Claw Group крутится полтора десятка моделей с разными версиями — без нормального версионирования это превращается в кошмар воспроизводимости
⚙️ Оптимизация затрат. K2.6 даёт уровень SOTA за долю цены закрытых моделей, но 300 параллельных суб-агентов это всё равно деньги. Без стратегии маршрутизации (routing) — тяжёлая модель только на сложные задачи, лёгкие — на типовые — бюджет улетает
⚙️ Зависимость от обвязки (harness). Бенчмарки модели «с инструментами» — это бенчмарки модели плюс обвязка. Один и тот же K2.6 в Kimi Code CLI и в самопальной обёртке покажет разные цифры. Moonshot, к слову, сделали Kimi Vendor Verifier именно чтобы проверять корректность сторонних развёртываний — это правильный шаг
И ещё один момент. Слухи про Kimi K3 на 3-4 триллиона параметров уже ходят в Reddit. Глядя на K2.6 как на инфраструктуру (12-часовое окно исполнения, 300-агентный рой, новый сжиматель контекста), легко увидеть в нём не финальный продукт, а посадочную полосу для следующей модели. Никто не вкладывается в слой исполнения, если не знает, что у него скоро появится модель, которая этим слоем сможет пользоваться по полной.
Итог
K2.6 — это первый открытый релиз, в котором веса модели и архитектура агентного исполнения заявляются как единый продукт, а не как «вот вам модель, а уж дальше как-нибудь сами». Разрыв с передовыми (frontier) моделями на чистом рассуждении сократился, но не закрыт; зато на агентных и кодинговых задачах с инструментами Moonshot уже на острие.
Для разработчиков и команд это означает простое: появилась открытая альтернатива закрытым моделям, на которой реально можно строить продакшн с автономными агентами, и которая стоит в разы дешевле. Для тех, кто работает с Dify, n8n, LangGraph и подобными оркестраторами — это новый дефолтный выбор для тяжёлых задач с длинным горизонтом. Для Anthropic, OpenAI и Google — серьёзный сигнал: открытые модели больше не пытаются выиграть гонку «быть дешёвой копией закрытых», они начинают предлагать свой класс архитектур.
Я уже сегодня вечером поставлю K2.6 через OpenRouter и прогоню её на одной задаче, на которой у меня K2.5 разваливался к третьему часу — посмотрим, действительно ли долгая выносливость (stamina) того стоит. Если да, то очень многое в моих собственных агентных конвейерах придётся переделывать.
Источники
- Kimi K2.6 Tech Blog: Advancing Open-Source Coding — https://www.kimi.com/blog/kimi-k2-6
- MarkTechPost: Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent Swarm — https://www.marktechpost.com/2026/04/20/moonshot-ai-releases-kimi-k2-6-with-long-horizon-coding-agent-swarm-scaling-to-300-sub-agents-and-4000-coordinated-steps/
- Kilo.ai blog: Kimi K2.6 Has Arrived — https://blog.kilo.ai/p/kimi-k26-has-arrived-an-open-weight
- Implicator.ai: Kimi K2.6 Turns Coding Into Agent Control — https://www.implicator.ai/kimi-k2-6-did-not-release-a-coding-model-it-opened-the-control-room/
- TestingCatalog: Moonshot AI launches Kimi K2.6 — https://www.testingcatalog.com/moonshot-ai-launches-kimi-k2-6-on-kimi-chat-and-apis/
- Latent Space AINews: Moonshot Kimi K2.6 — https://www.latent.space/p/ainews-moonshot-kimi-k26-the-worlds
- Cloudflare Changelog: Kimi K2.6 on Workers AI — https://developers.cloudflare.com/changelog/post/2026-04-20-kimi-k2-6-workers-ai/
- Kingy AI: Meet Kimi K2.6 — https://kingy.ai/ai/meet-kimi-k2-6-moonshot-ais-open-source-bet-on-long-horizon-agentic-coding/
- Lushbinary: Kimi K2.6 Developer Guide — https://lushbinary.com/blog/kimi-k2-6-developer-guide-benchmarks-api-agent-swarm/
- Kimi Vendor Verifier — https://www.kimi.com/blog/kimi-vendor-verifier
- Kimi Code CLI — https://www.kimi.com/code
- Kimi Agent Swarm — https://www.kimi.com/agent-swarm
- Доступ к API — https://platform.kimi.ai/