Проект представляет собой высокопроизводительную систему для запуска больших моделей (LLM) на GPU с использованием кастомных CUDA-ядер, оптимизированных под архитектуру Llama B и формат GGUF. Реализована многоуровневая кэш-стратегия: Tier A — веса в VRAM, Tier B — на pinned RAM с асинхронным H2D DMA, Tier C — fallback на NVMe через GPU-initiated I/O, что устраняет CPU из данных потока и обеспечивает скорость до X раз выше. Поддерживается квантование Q/K/M, self-speculative decoding FKV cache и SLEP-движок для потоковой обработки слоёв. Система построена на open-source платформе с BSD-лицензией и предназначена для production-развёртывания в ML-инфраструктуре. llm, gpu, mlops GitHub