17 подписчиков

Релиз Kimi K2.6 от Moonshot AI: открытые веса, API, Kimi Code

20 апреля20 апр

3 мин

Moonshot AI представила Kimi K2.6 как открытую модель для сложных инженерных и агентских задач. Разработчик сразу вывел её в несколько каналов: в чат Kimi, в API и в Kimi Code, то есть в отдельный инструмент для программирования и автономной работы с кодом. На Hugging Face модель опубликована с открытыми весами и лицензией Modified MIT, а на странице указано, что речь идёт о семействе на 1,1 трлн параметров. В блоге Moonshot делает акцент не столько на диалоговом режиме, сколько на long-horizon coding - долгих автономных сессиях, где модель сама планирует шаги, вызывает инструменты, проверяет результат и переделывает неудачные решения. Компания утверждает, что K2.6 способна вести такие цепочки больше 12 часов подряд и совершать свыше 4 тысяч вызовов инструментов в одном сценарии. Отдельно подчёркивается рост агентского «роя». Если у K2.5 система масштабировалась до 100 субагентов и 1500 координируемых шагов, то у K2.6 - уже до 300 субагентов и 4000 шагов одновременно. Это один из главн

Оглавление

Ставка на длинные прогоны
Эпизод с Zig
Что показывают бенчмарки

Ставка на длинные прогоны

В блоге Moonshot делает акцент не столько на диалоговом режиме, сколько на long-horizon coding - долгих автономных сессиях, где модель сама планирует шаги, вызывает инструменты, проверяет результат и переделывает неудачные решения. Компания утверждает, что K2.6 способна вести такие цепочки больше 12 часов подряд и совершать свыше 4 тысяч вызовов инструментов в одном сценарии.

Отдельно подчёркивается рост агентского «роя». Если у K2.5 система масштабировалась до 100 субагентов и 1500 координируемых шагов, то у K2.6 - уже до 300 субагентов и 4000 шагов одновременно. Это один из главных апдейтов релиза, потому что он напрямую связан с автономной разработкой, исследовательскими задачами и сложными рабочими процессами.

Эпизод с Zig

Самый запоминающийся пример из релизного блога связан не с абстрактным тестом, а с реальной инженерной задачей. В одном из прогонов K2.6 локально поставила на Mac модель Qwen3.5-0.8B, оценила стандартный инференс как недостаточно быстрый и решила написать собственную реализацию на Zig - языке, который не относится к привычным фаворитам ИИ-разработки вроде Python или C++.

Дальше история становится ещё интереснее. По данным Moonshot, модель прошла через 14 итераций, использовала более 4 тысяч вызовов инструментов и в итоге подняла скорость генерации примерно с 15 до 193 токенов в секунду. Компания также утверждает, что итоговый результат оказался примерно на 20 процентов быстрее LM Studio, популярного решения для локального запуска моделей.

В этом кейсе модель не просто выполнила тест, а самостоятельно переписала критичный участок рантайма под другую среду и довела его до рабочего результата.

Именно этот эпизод лучше всего объясняет, как Moonshot видит K2.6. Речь идёт не только о генерации кода по запросу, а о попытке превратить модель в автономного исполнителя, который умеет разбираться в незнакомом стеке, перепроверять решения и дожимать задачу до измеримого выигрыша в производительности.

Что показывают бенчмарки

На бумаге K2.6 тоже выглядит сильно. В официальных материалах Moonshot приводит такие результаты:

HLE с инструментами - 54,0,
SWE-Bench Pro - 58,6,
SWE-Bench Multilingual - 76,7,
BrowseComp - 83,2,
Toolathlon - 50,0,
CharXiv с Python - 86,7
MathVision с Python - 93,2.

Эти цифры и стали основой для заявлений о лидерстве модели среди открытых решений в ряде инженерных и агентских сценариев.

Но здесь важна оговорка. Часть самых эффектных оценок относится не к «чистой» модели, а к системе в связке с инструментами. Moonshot отдельно пишет, что для HLE with tools, BrowseComp и ряда других задач использовались search, code interpreter и web browsing, а SWE-Bench-линейка оценивалась через собственный агентный фреймворк на базе SWE-agent с набором утилит для работы в окружении. Иначе говоря, это в заметной степени оценка всей системы, а не только самой модели.

Без лишних преувеличений

Ещё одна важная деталь касается формулировки open-source SOTA. Она означает прежде всего лидерство среди открытых моделей в тех сценариях, где Moonshot решила сравниваться. Это не равнозначно заявлению, что K2.6 уже «сносит» GPT или Claude по всем направлениям. Более того, официальная таблица показывает смешанную картину: где-то K2.6 впереди, где-то рядом, а где-то уступает закрытым конкурентам.

Тем не менее релиз получился заметным. На фоне рынка, где многие компании либо держат лучшие системы закрытыми, либо ограничиваются короткими демо, Moonshot выложила открытые веса и показала довольно редкий класс историй - когда модель не просто набирает очки в тестах, а часами работает как автономный инженер. И именно поэтому Kimi K2.6 обсуждают не только из-за таблицы с метриками, но и из-за того самого кейса с Zig.