— посвящается всем, кто хочет максимально ускорить модели на своём компе через llama.cpp. Внутри — как выбрать железо, настроить ОС, управлять VRAM/RAM, работать с KV-кэшем, повысить скорость инференса на обычных ПК и многое другое. В закладки — тут Проверить: https://carteakey.dev/blog/local-inference/local-llm-optimization/