Ollama выпустила обновление для macOS, которое ускоряет локальный запуск ИИ-моделей на Mac за счёт фреймворка Apple MLX. По цифрам самой компании, обработка промпта стала примерно в 1,6 раза быстрее, а генерация ответа (decode) — почти в 2 раза быстрее. Речь про Macs на Apple silicon. Самый заметный прирост Ollama обещает на чипах серии M5, где Apple добавила GPU Neural Accelerators. Ollama привязала новый релиз к MLX — это машинно-обучающий фреймворк Apple, который помогает эффективнее задействовать железо Mac. В терминах LLM компания отдельно говорит про два участка: prefill и decode. Prefill — это скорость, с которой модель «проглатывает» ваш запрос. Decode — скорость, с которой она печатает токены ответа. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО По данным Ollama, prefill ускорился примерно в 1,6 раза. Decode вырос почти вдвое. На практике это обычно ощущается так: чат-бот быстрее стартует и меньше «задумывается», когда ответ длинный. Вместе с ускорением
Ollama ускорили на Mac: MLX даёт до 2 раз быстрее генерацию
31 марта31 мар
2
1 мин