Ollama ускорили на Mac: MLX даёт до 2 раз быстрее генерацию

31 марта31 мар

1 мин

Ollama выпустила обновление для macOS, которое ускоряет локальный запуск ИИ-моделей на Mac за счёт фреймворка Apple MLX. По цифрам самой компании, обработка промпта стала примерно в 1,6 раза быстрее, а генерация ответа (decode) — почти в 2 раза быстрее. Речь про Macs на Apple silicon. Самый заметный прирост Ollama обещает на чипах серии M5, где Apple добавила GPU Neural Accelerators. Ollama привязала новый релиз к MLX — это машинно-обучающий фреймворк Apple, который помогает эффективнее задействовать железо Mac. В терминах LLM компания отдельно говорит про два участка: prefill и decode. Prefill — это скорость, с которой модель «проглатывает» ваш запрос. Decode — скорость, с которой она печатает токены ответа. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО По данным Ollama, prefill ускорился примерно в 1,6 раза. Decode вырос почти вдвое. На практике это обычно ощущается так: чат-бот быстрее стартует и меньше «задумывается», когда ответ длинный. Вместе с ускорением

Оглавление

Какие ускорения Ollama обещает на Apple silicon
Память и «долгие» сессии: упор на стабильность
Где скачать и какие ограничения у превью

Ollama выпустила обновление для macOS, которое ускоряет локальный запуск ИИ-моделей на Mac за счёт фреймворка Apple MLX. По цифрам самой компании, обработка промпта стала примерно в 1,6 раза быстрее, а генерация ответа (decode) — почти в 2 раза быстрее.

Речь про Macs на Apple silicon. Самый заметный прирост Ollama обещает на чипах серии M5, где Apple добавила GPU Neural Accelerators.

Какие ускорения Ollama обещает на Apple silicon

Ollama привязала новый релиз к MLX — это машинно-обучающий фреймворк Apple, который помогает эффективнее задействовать железо Mac. В терминах LLM компания отдельно говорит про два участка: prefill и decode. Prefill — это скорость, с которой модель «проглатывает» ваш запрос. Decode — скорость, с которой она печатает токены ответа.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

По данным Ollama, prefill ускорился примерно в 1,6 раза. Decode вырос почти вдвое. На практике это обычно ощущается так: чат-бот быстрее стартует и меньше «задумывается», когда ответ длинный.

Память и «долгие» сессии: упор на стабильность

Вместе с ускорением Ollama заявляет и про более умное управление памятью. Это важно для тех, кто держит локального ассистента открытым часами и гоняет его в фоне. В таких сценариях даже небольшие просадки по памяти быстро превращаются в лаги и подтормаживания интерфейса.

Компания отдельно подчёркивает пользу для macOS-пользователей, которые запускают персональные ассистенты вроде OpenClaw, а также coding-агенты, включая Claude Code, OpenCode и Codex.

Где скачать и какие ограничения у превью

Превью-сборка доступна как Ollama 0.19. Скачать её можно с официальной страницы: available to download as Ollama 0.19.

Память: нужен Mac с более чем 32 ГБ unified memory.
Модели: сейчас поддержка ограничена Alibaba’s Qwen3.5, но Ollama обещает добавить и другие модели позже.

Подробности про интеграцию с MLX Ollama описала в своём блоге: According to Ollama.

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

Ollama ускорили на Mac: MLX даёт до 2 раз быстрее генерацию ⚡️