Найти в Дзене

Два Mac против триллиона параметров: как локальный ИИ догнал облако

Оглавление

Новость о том, что Kimi K2 Thinking с триллионом параметров стабильно работает на связке из двух Mac Studio с M3 Ultra, на первый взгляд выглядит как красивый твит. Но если копнуть глубже, это не просто рекорд «ради рекорда», а симптом куда более важного сдвига в индустрии ИИ.

Мы привыкли считать, что большие модели — это вотчина дата-центров, стойки с GPU и счета на сотни тысяч долларов. Однако здесь всё иначе: открытая модель, потребительское железо и локальный запуск без облака. И это уже не демо «на пару токенов», а скорость, с которой реально можно работать.

Почему именно это — переломный момент

Главная магия Kimi K2 не в абстрактном числе параметров, а в том, как именно они используются.

🔧 Mixture-of-Experts (MoE)
Модель содержит триллион параметров, но
активно задействует лишь 32 млрд на каждом шаге. Это означает, что вычислительная нагрузка масштабируется разумно, а не «в лоб».

🧠 Агентное мышление вместо болтовни
Kimi K2 оптимизирована под задачи программирования, рассуждений и агентных сценариев — там, где важна последовательность шагов и работа с инструментами, а не просто генерация текста.

💾 Агрессивная квантизация
Запуск осуществляется в
4-bit quant, а сообщество уже экспериментирует с 3- и даже 2-битными версиями. Потери в качестве на таком масштабе оказываются неожиданно терпимыми — чистая математика больших чисел.

Техническая сторона: почему это вообще работает

Ключевую роль здесь играет стек Apple:

🍏 MLX и mlx-lm
Фреймворк MLX — это не «PyTorch на минималках», а низкоуровневая оптимизация под Apple Silicon, где память, CPU и GPU работают как единое целое.

🔗 mx.distributed
Модель распределяется между двумя Mac Studio без экзотических сетевых костылей. RDMA пока не используется, но даже без него производительность уже «вменяемая» — а значит, потолок ещё впереди.

Объединённая память
512 ГБ unified memory на каждом Mac — это не маркетинг. Для больших моделей отсутствие копирования между GPU и CPU даёт реальное преимущество.

Экономика, от которой становится неловко

Самый болезненный момент — сравнение цен:

💰 DGX B200 — около полумиллиона долларов
🖥️
Два Mac Studio M3 Ultra — порядка 20 тысяч

Да, это не полная замена серверным решениям. Но для исследователей, стартапов и инди-разработчиков разница звучит почти неприлично.

Моё мнение: это начало «домашнего суперинтеллекта»

Я вижу здесь не просто удачный порт модели, а смену парадигмы. Большие открытые модели перестают быть чем-то абстрактным «где-то в облаке» и становятся локальным инструментом — почти как компилятор или база данных.

Для разработчиков это означает:

🚀 автономные ИИ-агенты без зависимости от API
🔒 контроль над данными и приватностью
🛠️ возможность экспериментировать с архитектурами, а не ждать лимитов

Ирония в том, что именно Apple — компания, которую долго не воспринимали всерьёз в ML-сообществе, — неожиданно стала удобной платформой для локального ИИ масштаба «только для избранных».

Ссылки и источники

🔗 Твит Awni Hannun о запуске Kimi K2 на двух Mac:
https://twitter.com/awnihannun/status/1943723599971443134

🔗 Анонс модели Kimi K2 от Moonshot AI:
https://twitter.com/Kimi_Moonshot

🔗 Документация MLX Distributed:
https://ml-explore.github.io/mlx/build/html/usage/distributed.html

🔗 Hugging Face — квантизированные версии Kimi K2:
https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF