123 подписчика

Moonshot AI выпустила Kimi K2.7-Code — опенсорсную модель, заточенную под агентское прогр

18 июня18 июн

1 мин

Это не универсальная модель, а узкоспециализированный инструмент для реальных и долгих задач разработки.

☝🏻Главное практическое улучшение — экономия.

По сравнению с K2.6 модель тратит примерно на 30% меньше «думающих» токенов, чтобы прийти к тем же выводам.

На фоне конкурентов, которые могут сжигать огромные объёмы токенов в многочасовых прогонах, это напрямую снижает стоимость работы. 💸

☝🏻По бенчмаркам картина неоднозначная, но показательная.

На собственном тесте Moonshot, Kimi Code Bench, модель выросла с 50.9 до 62.0 — скачок на 21.8% относительно K2.6.

При этом на Kimi Code Bench v2 она набирает 62.0 против 69.0 у GPT-5.5 и 67.4 у Opus 4.8 — то есть пока чуть позади флагманов, хотя разрыв с GPT-5.5 сократился с 18 пунктов в эпоху K2.6 до 7.

Но есть и козырь: на тесте MCPMark Verified, который проверяет умение вызывать инструменты через протокол MCP,

K2.7-Code набирает 81.1% и обходит Claude Opus 4.8 с её 76.4%. 🛠

🔻Отдельно стоит новая фишка — режим Preserve Thin

Это не универсальная модель, а узкоспециализированный инструмент для реальных и долгих задач разработки.

☝🏻Главное практическое улучшение — экономия.

По сравнению с K2.6 модель тратит примерно на 30% меньше «думающих» токенов, чтобы прийти к тем же выводам.

☝🏻По бенчмаркам картина неоднозначная, но показательная.

На собственном тесте Moonshot, Kimi Code Bench, модель выросла с 50.9 до 62.0 — скачок на 21.8% относительно K2.6.

Но есть и козырь: на тесте MCPMark Verified, который проверяет умение вызывать инструменты через протокол MCP,

K2.7-Code набирает 81.1% и обходит Claude Opus 4.8 с её 76.4%. 🛠

🔻Отдельно стоит новая фишка — режим Preserve Thin

Это не универсальная модель, а узкоспециализированный инструмент для реальных и долгих задач разработки.

☝🏻Главное практическое улучшение — экономия.

По сравнению с K2.6 модель тратит примерно на 30% меньше «думающих» токенов, чтобы прийти к тем же выводам.

На фоне конкурентов, которые могут сжигать огромные объёмы токенов в многочасовых прогонах, это напрямую снижает стоимость работы. 💸

☝🏻По бенчмаркам картина неоднозначная, но показательная.

На собственном тесте Moonshot, Kimi Code Bench, модель выросла с 50.9 до 62.0 — скачок на 21.8% относительно K2.6.

При этом на Kimi Code Bench v2 она набирает 62.0 против 69.0 у GPT-5.5 и 67.4 у Opus 4.8 — то есть пока чуть позади флагманов, хотя разрыв с GPT-5.5 сократился с 18 пунктов в эпоху K2.6 до 7.

Но есть и козырь: на тесте MCPMark Verified, который проверяет умение вызывать инструменты через протокол MCP,
K2.7-Code набирает 81.1% и обходит Claude Opus 4.8 с её 76.4%. 🛠

🔻Отдельно стоит новая фишка — режим Preserve Thinking.

В отличие от большинства моделей, которые сбрасывают цепочку рассуждений с каждым новым сообщением, K2.7-Code сохраняет её между ходами диалога — то есть помнит, почему приняла те или иные архитектурные решения в ходе многошаговой задачи.

☝🏻Веса уже выложены на Hugging Face, модель также доступна через API Moonshot и ModelScope, а запускать её можно локально через vLLM, SGLang или Docker Model Runner.

Лучше всего она раскрывается в связке с агентским фреймворком Kimi Code CLI.