! В блоге о запуске новой модели Kimi есть история, от которой немного отвисает челюсть. Моделька сама, без человека, поставила себе на мак Qwen3.5-0.8B и решила, что дефолтный инференс её не устраивает. Дальше она села писать свой, причём не на привычном питоне или C++, а на Zig. В итоге скорость генерации выросла примерно с 15 до 193 токенов в секунду. То есть больше чем в десять раз. И это оказалось на 20 процентов быстрее, чем LM Studio, которой пользуются тысячи людей именно для локального запуска моделей. Больше 4000 вызовов инструментов, 12 часов непрерывной работы и 14 итераций, пока всё не сошлось. Метрики K2.6 выглядят пртилично: SOTA среди опенсорса на HLE с тулзами, сильные результаты на SWE-Bench Pro, BrowseComp и математических бенчах с питоном. Но запоминается больше всего этот эпизод с Zig. Потому что одно дело проходить тесты, и совсем другое- взять незнакомый язык и переписать на нём чужой рантайм так, чтобы он обогнал популярный продукт. 🔗 API: https://plat