106 подписчиков

Ollama внедрила поддержку MLX — производительность на Mac выросла

1 апреля1 апр

2 мин

Ollama улучшила производительность локальных моделей на Mac, добавив поддержку открытой MLX-рамки от Apple. Это особенно важно для разработчиков, кто работает с большими языковыми моделями — теперь модели запускаются быстрее и эффективнее. Поддержка MLX позволила Ollama оптимизировать использование памяти на устройствах с процессорами Apple Silicon (M1 и новее). Теперь разработчикам доступна повышенная производительность за счёт улучшенного кэширования и поддержки формата NVFP4 для сжатия моделей. Например, новые нейропроцессоры M5 обеспечивают значительные преимущества в скорости обработки токенов и времени отклика, что становится заметным при работе с объёмными моделями, такими как 35-миллиардная версия Qwen3.5 от Alibaba. Сейчас как никогда актуально экспериментировать с локальными AI-моделями. Успех OpenClaw, которая быстро набрала более 300,000 звезд на GitHub, вдохновил многих разработчиков проводить эксперименты на своих устройствах. Как показывает практика, рост цен на подписки

Оглавление

Новый уровень производительности для Mac
Рост интереса к локальным моделям
Преимущества и ограничения

Новый уровень производительности для Mac

Поддержка MLX позволила Ollama оптимизировать использование памяти на устройствах с процессорами Apple Silicon (M1 и новее). Теперь разработчикам доступна повышенная производительность за счёт улучшенного кэширования и поддержки формата NVFP4 для сжатия моделей. Например, новые нейропроцессоры M5 обеспечивают значительные преимущества в скорости обработки токенов и времени отклика, что становится заметным при работе с объёмными моделями, такими как 35-миллиардная версия Qwen3.5 от Alibaba.

Рост интереса к локальным моделям

Сейчас как никогда актуально экспериментировать с локальными AI-моделями. Успех OpenClaw, которая быстро набрала более 300,000 звезд на GitHub, вдохновил многих разработчиков проводить эксперименты на своих устройствах. Как показывает практика, рост цен на подписки на сервисы вроде ChatGPT и Claude Code заставляет пользователей искать альтернативы, и локальные решения становятся всё более привлекательными.

Преимущества и ограничения

Использование локальных моделей предоставляет ряд преимуществ, среди которых высокая скорость и конфиденциальность. Например, возникают вопросы по безопасности, когда модели имеют доступ к системе пользователя. Однако настройка Ollama остаётся сложной — это в первую очередь инструмент командной строки. Чтобы воспользоваться новшествами, пользователям потребуется Mac с минимум 32 ГБ RAM, что ограничивает доступ для большинства обычных пользователей.

В отличие от более традиционных настольных ПК с выделенными GPU, MLX использует общую память процессора и графического процессора, что открывает новые возможности для разработчиков. Несмотря на это, конкуренция с облачными моделями остаётся актуальной — лучшие результаты показывают именно они.

Будущее локальных модели на Mac

Ollama пока не объявила, когда технология MLX станет доступной для других моделей, но с каждым шагом локальные решения приближаются к облачным по производительности и функциональности. Если эта тенденция сохранится, разработчики могут ожидать повышения доступности и улучшения качества AI-инструментов в ближайшие месяцы.

The post Ollama внедрила поддержку MLX — производительность на Mac выросла appeared first on iTech News.