Окей, вот история. Все говорят: нейросеть можно запустить прямо на ноутбуке. Бесплатно, без подписок, без VPN. Звучит классно — но первый вопрос, который у меня возник: а мой ноут это вообще переживёт? Я потратил вечер, разобрался, какое железо нужно для каких моделей, и рассказываю без зауми.
Два главных ресурса: RAM и VRAM
Смотрите, для запуска локальной нейросети компьютеру нужны две вещи.
RAM (оперативная память) — это та самая «оперативка», которую вы видите в характеристиках ноутбука: 8 ГБ, 16 ГБ, 32 ГБ. Она хранит данные, с которыми компьютер работает прямо сейчас.
VRAM (видеопамять) — память внутри видеокарты. И вот тут начинается самое важное.
Почему видеопамять важнее
Нейросети считают на GPU (графическом процессоре видеокарты) в 5–20 раз быстрее, чем на обычном процессоре. Грубо: RAM — это склад с деталями, а VRAM — рабочий стол мастера. Чем больше стол, тем крупнее проект мастер собирает без беготни на склад.
Если модель не влезает в VRAM целиком — часть уходит в обычную RAM, и скорость падает в разы. Проверено на себе: разница между «всё влезло» и «не влезло на 2 гига» — это разница между комфортной работой и мучительным ожиданием.
Отдельная история — Mac на чипах M1/M2/M3/M4. У них Unified Memory (объединённая память) — RAM и VRAM это одно и то же. Поэтому 16 ГБ на MacBook Air — это не то же самое, что 16 ГБ на Windows-ноуте с отдельной видеокартой. На Mac вся память доступна и процессору, и GPU одновременно. Удобно.
Что значит «7B», «13B», «70B» в названии модели
Буква B — это миллиарды параметров (billions). Параметры — это «знания» модели, записанные в числах. Чем их больше, тем модель умнее, но и тяжелее.
Грубые ориентиры в сжатом виде:
- 1–3B — ~1–2 ГБ
- 7–8B — ~4–5 ГБ
- 13B — ~8–9 ГБ
- 70B — ~40+ ГБ
Честно говоря, когда я впервые увидел эти цифры, подумал: «Ну всё, мне точно не светит». Но потом узнал про квантизацию.
Квантизация — зачем модели сжимают
Оригинальная модель хранит каждый параметр в 16-битном числе (высокая точность). Квантизация — это сжатие: вместо 16 бит на параметр оставляем 4 или 8.
Что это даёт на практике:
- Q8 (8-бит) — модель весит вдвое меньше оригинала, потеря качества почти незаметна
- Q4 (4-бит) — модель легче в ~4 раза, качество падает на 5–10%
То есть модель на 70 миллиардов параметров, которая в оригинале весит 140 ГБ, в Q4-сжатии занимает ~40 ГБ. Разница огромная.
Формат файлов таких сжатых моделей обычно называется GGUF — это просто контейнер, в который упакована сжатая модель. Увидите файл .gguf — значит, модель уже готова к запуску в LM Studio или Ollama.
Что запустится на вашем железе
Конкретика. Без воды.
8 ГБ оперативки (старые ноуты, бюджетные модели). Потянет Llama 3.2 1B, Phi-3 Mini. Хватит для простых вопросов, кратких текстов. Будет медленно — порядка 5–15 токенов в секунду (токен ≈ кусочек слова, 10 т/с — это примерно как медленная печать). Но работает.
16 ГБ (средний современный ноут). Llama 3.1 8B, Mistral 7B, Gemma 4 4B в Q4-сжатии. Нормальная скорость, 15–40 т/с в зависимости от процессора. Годится для большинства задач: переписка, генерация текстов, помощь с кодом. Ну и для меня это оказался тот sweet spot, где уже можно работать, а не просто смотреть, как буквы появляются по одной.
32 ГБ (мощный ноут или десктоп). Llama 3.3 70B Q4, DeepSeek R1 Distill 32B. Можно держать несколько средних моделей одновременно. На этом объёме уже комфортно экспериментировать.
64+ ГБ (рабочая станция, Mac Studio). Крупные 70B-модели без агрессивного сжатия, мульти-агентные системы, серьёзная работа.
Mac, Windows или Linux — где лучше
Mac M1–M4. Объединённая память — большой плюс. Но учтите: macOS забирает себе ~2 ГБ. Поэтому из 8 ГБ нейросетям доступно ~6 ГБ. Из 16 — около 13–14 ГБ. На M-чипах обычно получается 20–50 т/с в зависимости от модели и степени сжатия.
Windows/Linux с NVIDIA. Если есть дискретная видеокарта RTX 3060 и выше — это серьёзный буст. Видеокарты NVIDIA работают с технологией CUDA (набор инструментов для параллельных вычислений на GPU), и большинство AI-софта заточено именно под неё. RTX 3060 с 12 ГБ VRAM — уже отличная точка входа.
AMD и Intel Arc. Поддержка хуже, многие инструменты требуют дополнительных настроек. Можно, но сложнее. Я полчаса пытался завести одну модель на AMD — в итоге плюнул и переключился на CPU-режим.
Чего делать не стоит
Стоп. Прежде чем бежать покупать видеокарту за 80 тысяч — остановитесь.
Начните с бесплатных тарифов облачных моделей: Claude, ChatGPT, Gemini. Попользуйтесь неделю-две. Если поймёте, что вам реально нужна локальная модель (приватность данных, работа без интернета, эксперименты с fine-tuning) — тогда уже думайте про апгрейд.
Не покупайте дорогое железо «чтобы попробовать». Попробовать можно на том, что есть.
Первый тест за 10 минут
Хотите проверить прямо сейчас? Вот план:
- Скачайте LM Studio (бесплатно, ставится в один клик, есть под Mac, Windows, Linux)
- Внутри найдите модель Llama 3.2 3B Q4 — она весит ~2 ГБ
- Запустите и задайте любой вопрос
Если ноут потянул и скорость устраивает — пробуйте модели покрупнее. Не потянул — ну и ладно, облачные нейросети никуда не делись.
У меня на канале есть подробный гайд по LM Studio с пошаговой настройкой — это самая дочитываемая статья на «Скажи AI». Найдёте легко.
📱 Больше промтов, экспериментов и смешных фейлов нейросетей —
в моём Телеграме: @skazhi_ai