llama.cpp - это лёгкий, высокопроизводительный C/C++-фреймворк для запуска больших языковых моделей (LLM) локально - на ноутбуке, рабочей станции или сервере - без обязательной зависимости от облака. Проект изначально был создан для работы с моделями семейства Meta LLaMA, но сегодня поддерживает десятки архитектур. Главная идея: запустить современную LLM на обычном железе, используя квантизацию и оптимизации под CPU и GPU. Что такое llama.cpp и как он работает llama.cpp реализует: Работает напрямую с весами модели без PyTorch и Python-стека, что делает его: История создания llama.cpp Проект появился в 2023 году вскоре после утечки весов модели LLaMA от Meta. Автор - Georgi Gerganov, известный также по проекту whisper.cpp. Изначально цель была простой: Запустить LLaMA на MacBook с CPU. Сегодня llama.cpp поддерживает: Ключевые принципы и архитектура 1. Минимализм Без тяжёлых зависимостей. Чистый C/C++. 2. Оптимизация под CPU Используются: 3. Плагинная система бэкендов Можно подключить: Ф
Что такое llama.cpp и зачем он нужен: руководство по локальному запуску LLM
11 марта11 мар
3 мин