558 подписчиков

Kimi K2.6 от Moonshot AI: 12 часов автономного кодинга как новый ориентир

ВчераВчера

2 мин

⚡️ Kimi K2.6 выделяется не только масштабом MoE-архитектуры, но и тем, что её обучали выполнять многочасовые инженерные задачи без участия человека. Два кейса из техблога показывают, как это превращается в измеримый прирост производительности. Moonshot AI выпустили Kimi K2.6 — открытую модель на MoE-архитектуре. Заявлены 1 триллион параметров, при этом 32 млрд активных на шаг, а также контекст 256K. Однако ценность релиза раскрывается не в цифрах масштаба, а в том, как модель справляется с длинными траекториями разработки, где нужно много итераций, инструментов и проверок. MoE-подход позволяет сочетать большой общий размер модели и выборочную активацию экспертов. Контекст 256K практичен в задачах, где необходимо удерживать крупные фрагменты репозитория, результаты профилирования и промежуточные решения в рамках одной сессии. Kimi K2.6 тренировали на сценариях, в которых модель должна работать часами без участия человека. Это означает упор на последовательный процесс: планирование шагов

Оглавление

Контекст
Архитектура и фокус на «длинной дистанции»
Два кейса из техблога: что именно сделала K2.6

Контекст

Moonshot AI выпустили Kimi K2.6 — открытую модель на MoE-архитектуре. Заявлены 1 триллион параметров, при этом 32 млрд активных на шаг, а также контекст 256K. Однако ценность релиза раскрывается не в цифрах масштаба, а в том, как модель справляется с длинными траекториями разработки, где нужно много итераций, инструментов и проверок.

Архитектура и фокус на «длинной дистанции»

MoE-подход позволяет сочетать большой общий размер модели и выборочную активацию экспертов. Контекст 256K практичен в задачах, где необходимо удерживать крупные фрагменты репозитория, результаты профилирования и промежуточные решения в рамках одной сессии.

Почему важна автономность на часы

Kimi K2.6 тренировали на сценариях, в которых модель должна работать часами без участия человека. Это означает упор на последовательный процесс: планирование шагов, запуск инструментов, анализ результатов и повторение цикла до достижения измеримого улучшения.

Два кейса из техблога: что именно сделала K2.6

Оба примера показывают не «красивый ответ», а многошаговую инженерную работу с большим числом действий и контролем результата.

Кейс 1: оптимизация Qwen3.5-0.8B на Mac

K2.6 написала инференс-движок на Zig, затем выполнила 14 итераций оптимизаций. За 12 часов было сделано более 4 000 вызовов инструментов, а throughput вырос с 15 до 193 токенов/сек. Важна сама структура процесса: длительная цепочка «изменение — проверка — анализ — следующее изменение».

Кейс 2: рефакторинг биржевого движка

В этом примере модель работала 13 часов, применяя 12 стратегий оптимизации. В коде изменилось более 4 000 строк, а итоговый прирост производительности составил 185%. Это показатель того, что модель выдерживает большой объём правок при сохранении общей цели оптимизации.

Масштаб агентной работы и бенчмарки

K2.6 поддерживает рои до 300 субагентов и 4 000 скоординированных шагов, тогда как у K2.5 было 100 субагентов и 1 500 шагов. На профильных тестах агентного кодинга заявлены высокие значения: SWE-Bench Pro — 58.6, Terminal-Bench 2.0 — 66.7.

Как упаковывать такие темы в системный контент

Технические релизы часто требуют адаптации под разные форматы и площадки. В таких задачах помогает Kineiro.ru: сервис упрощает подготовку материалов под разные каналы и автоматизирует публикации, снижая долю ручной рутины при регулярных выпусках.

Резюме

Kimi K2.6 важна тем, что переводит автономность в прикладную плоскость: многочасовая работа, тысячи инструментальных действий и измеримые приросты производительности становятся частью модели, а не постоянной обязанностью человека сопровождать каждый шаг.