13.7k звёзд на гитхабе, Apache 2.0. Что отличает от ollama и привычных «поднял llama.cpp у себя на Маке»: 1. Тиерный KV-кеш (hot + cold). Часто используемый контекст — в RAM, остальное — на SSD. Это значит, что параллельные сессии не вышибают друг друга из памяти. Реально держит нагрузку команды. 2. Continuous batching + prefix sharing с copy-on-write блоками. Когда 5 человек шлют запросы одновременно — они не уходят в очередь, как у простых серверов. Обрабатываются параллельно. 3. Мульти-модель из коробки. LLM, VLM, OCR, embeddings, rerankers — одновременно. LRU-выгрузка моделей, которые давно не использовались. То есть один сервер закрывает: чат, RAG, обработку PDF, vision-задачи. 4. Drop-in для OpenAI и Anthropic API. Function calling, MCP, structured output, стриминг. Перенастраивать клиентов не надо — меняешь только base URL. 5. UI: menu bar app (нативный, PyObjC, а не Electron) + веб-дашборд на /admin — бенчмарки, чат, метрики. Если в офисе стоит Mac Studio M-серии — это p
oMLX — локальный LLM-сервер для Mac, который реально готов под прод
3 дня назад3 дня назад
1 мин