oMLX — локальный LLM-сервер для Mac, который реально готов под прод

3 дня назад3 дня назад

1 мин

13.7k звёзд на гитхабе, Apache 2.0. Что отличает от ollama и привычных «поднял llama.cpp у себя на Маке»: 1. Тиерный KV-кеш (hot + cold). Часто используемый контекст — в RAM, остальное — на SSD. Это значит, что параллельные сессии не вышибают друг друга из памяти. Реально держит нагрузку команды. 2. Continuous batching + prefix sharing с copy-on-write блоками. Когда 5 человек шлют запросы одновременно — они не уходят в очередь, как у простых серверов. Обрабатываются параллельно. 3. Мульти-модель из коробки. LLM, VLM, OCR, embeddings, rerankers — одновременно. LRU-выгрузка моделей, которые давно не использовались. То есть один сервер закрывает: чат, RAG, обработку PDF, vision-задачи. 4. Drop-in для OpenAI и Anthropic API. Function calling, MCP, structured output, стриминг. Перенастраивать клиентов не надо — меняешь только base URL. 5. UI: menu bar app (нативный, PyObjC, а не Electron) + веб-дашборд на /admin — бенчмарки, чат, метрики. Если в офисе стоит Mac Studio M-серии — это p

oMLX — локальный LLM-сервер для Mac, который реально готов под прод. 13.7k звёзд на гитхабе, Apache 2.0.

Что отличает от ollama и привычных «поднял llama.cpp у себя на Маке»:

1. Тиерный KV-кеш (hot + cold). Часто используемый контекст — в RAM, остальное — на SSD. Это значит, что параллельные сессии не вышибают друг друга из памяти. Реально держит нагрузку команды.

2. Continuous batching + prefix sharing с copy-on-write блоками. Когда 5 человек шлют запросы одновременно — они не уходят в очередь, как у простых серверов. Обрабатываются параллельно.

3. Мульти-модель из коробки. LLM, VLM, OCR, embeddings, rerankers — одновременно. LRU-выгрузка моделей, которые давно не использовались. То есть один сервер закрывает: чат, RAG, обработку PDF, vision-задачи.

4. Drop-in для OpenAI и Anthropic API. Function calling, MCP, structured output, стриминг. Перенастраивать клиентов не надо — меняешь только base URL.

5. UI: menu bar app (нативный, PyObjC, а не Electron) + веб-дашборд на /admin — бенчмарки, чат, метрики.

Если в офисе стоит Mac Studio M-серии — это production-сервер для команды без счёта по токенам и без отправки данных наружу.

github.com/jundot/omlx

#инструменты #selfhosted #LLM

—

📱 Макс · 📖 Дзен · ✈️ Telegram · 🌐 hr-s.ru