311 подписчиков

Как разговаривать с LLM в самолете

24 мая24 мая

2 мин

? Hugging Face — платформа, где разработчики публикуют модели машинного обучения. Что-то вроде GitHub, только для AI. Зашёл, выбрал, скачал. Осталось разобраться какую скачать и как использовать. Ollama — программа, которая запускает языковые модели прямо на твоём компьютере. Без облака, без подписки, без отправки данных на серверы OpenAI или Anthropic. Данные не уходят никуда. GGUF — формат файла, в котором хранится модель. Придуман специально для локального запуска: компактный, быстрый. Ollama работает именно с ним. Если модель на Hugging Face лежит в safetensors или bin — Ollama её не запустит напрямую. 7B и 8B — количество параметров модели в миллиардах. Параметр — числовой вес, из которых состоит нейросеть. Больше параметров — как правило, умнее ответы, но больше требований к памяти. Llama 3 8B и Mistral 7B — типичные представители этого класса, работают на обычном ноутбуке. Q4 и Q5 — уровень квантования. Квантование сжимает модель: вместо полноточных чисел используются более

Как разговаривать с LLM в самолете?

Hugging Face — платформа, где разработчики публикуют модели машинного обучения. Что-то вроде GitHub, только для AI. Зашёл, выбрал, скачал. Осталось разобраться какую скачать и как использовать.

Ollama — программа, которая запускает языковые модели прямо на твоём компьютере. Без облака, без подписки, без отправки данных на серверы OpenAI или Anthropic. Данные не уходят никуда.

GGUF — формат файла, в котором хранится модель. Придуман специально для локального запуска: компактный, быстрый. Ollama работает именно с ним. Если модель на Hugging Face лежит в safetensors или bin — Ollama её не запустит напрямую.

7B и 8B — количество параметров модели в миллиардах. Параметр — числовой вес, из которых состоит нейросеть. Больше параметров — как правило, умнее ответы, но больше требований к памяти. Llama 3 8B и Mistral 7B — типичные представители этого класса, работают на обычном ноутбуке.

Q4 и Q5 — уровень квантования. Квантование сжимает модель: вместо полноточных чисел используются более грубые приближения. Q4 значит, что каждый параметр хранится в 4 битах вместо 16 или 32. Меньше число — меньше файл и меньше RAM, но чуть хуже качество. Q5 тяжелее, зато точнее.

На ноутбук обычно рекомендуют скачивать Q4_K_M — здесь три части:

🔹Q4 говорит сколько бит.

🔹K — это алгоритм K-quant: разные слои модели сжимаются по-разному, важные получают больше точности.

🔹M — средний вариант внутри семейства: S (small), M (medium), L (large). Q4_K_M лучше старого простого Q4_0 при том же размере файла — поэтому он стал стандартом для локального запуска.

Как это всё запустить

Устанавливаешь Ollama с сайта ollama.com. Одна команда в терминале — и модель Qwen3 8B скачивается и запускается:

ollama run hf.co/bartowski/Qwen3-8B-GGUF:Q4_K_M

Что здесь происходит построчно:

ollama run — говорит Ollama запустить модель

hf.co/bartowski/Qwen3-8B-GGUF — адрес репозитория на Hugging Face, пользователь bartowski выложил готовые GGUF-сборки Qwen3

:Q4_K_M — конкретный файл внутри репозитория, который хочешь скачать

Ollama скачает файл, запустит его и откроет чат прямо в терминале. Пишешь вопрос — модель отвечает локально. Интернет нужен только для скачивания, дальше всё работает офлайн.

Вот пример как сделать локальный LLM на Windows на флешке

В видеоролике используется проект https://github.com/mozilla-ai/llamafile

Также еще была ранее шпаргалка по выбору железа для локальных моделей

Денис Батранков в LinkedIn, Youtube, RuTube и MAX

#ИИ