На домашнем компьютере прямо сейчас может работать AI, который год назад стоил тысячи долларов в месяц. Нужна обычная игровая видеокарта с 8 ГБ памяти. И всё.
Это называется локальный AI. Никаких облаков, никаких подписок, никаких серверов в США. И это не хобби гиков — 70% крупных компаний мира уже планируют перенести часть AI-инфраструктуры на собственное железо.
Разбираемся, как это работает и зачем вам это знать.
Что такое локальный AI и чем он отличается от ChatGPT
Когда вы пишете запрос в ChatGPT, ваш текст уходит на серверы в США. Там обрабатывается. Возвращается обратно. Компания видит, о чём вы спрашивали.
Локальный AI работает иначе. Модель — это один файл весом от 4 до 40 ГБ — скачивается на ваш компьютер, и дальше всё происходит внутри вашей машины. Без интернета. Без подписки. Никто не видит ваши запросы.
Главный инструмент для этого — программа Ollama. Бесплатная, устанавливается одной командой. По данным на 2025 год, в мире работает более 174 000 публично обнаруженных экземпляров Ollama — реальная цифра значительно выше.
Какое железо нужно: честные цифры
Без воды — конкретные пороги.
8 ГБ видеопамяти (RTX 3060, RTX 4060, RTX 3070):
- Запускаете 7-8-миллиардные модели: Mistral 7B, Llama 3.1 8B, Gemma 2
- Это уровень «умный помощник» — пишет тексты, отвечает на вопросы, суммирует документы
- Скорость: 20–40 токенов в секунду, читаемый ответ в реальном времени
- Это минимальный рабочий порог на сегодня
16–24 ГБ видеопамяти (RTX 4070 Ti, RTX 4080, RTX 3090):
- 13-миллиардные модели — заметно рассудительнее и точнее
- Одновременно с текстом можно запустить генерацию изображений
- Уже серьёзный инструмент для работы: анализ документов, код, переводы
48+ ГБ видеопамяти (две RTX 4090 или профессиональные карты):
- 70-миллиардные модели — уровень GPT-4 образца 2023 года
- RTX 4090 генерирует 75 изображений 1024×1024 в минуту (данные irendering.net, 2025)
Важная деталь: квантизация. Это метод сжатия модели, который снижает требования к памяти в 3–4 раза при минимальной потере качества. 8-миллиардная модель в 4-битном формате занимает 4–5 ГБ вместо 16 ГБ. Именно квантизация сделала 8 ГБ реальным входным порогом.
Нет мощной видеокарты? Модель запустится на процессоре при 16+ ГБ оперативной памяти. Медленнее в несколько раз — но работает.
Что делать локально, а что лучше отдать облаку
Локальный AI не заменяет облачный во всём. Вот честное разделение.
Локально хорошо:
- Конфиденциальные документы: юридические тексты, медицинские данные, финансовые отчёты — никуда не уходят
- Высокие объёмы запросов: облачный API для 500 000 обращений в поддержку обходится в $10 000 в месяц, локальная модель DeepSeek — меньше $1 000 (данные softwaretailor.com, 2025)
- Работа без интернета
- Генерация изображений без ограничений по стилю
Облако лучше:
- Нужна самая свежая и мощная модель (GPT-4o, Claude 3.7, Gemini 2.5)
- Редкие запросы — покупать железо ради них не имеет смысла
- Работа с актуальными интернет-данными в режиме реального времени
Большинство компаний приходят к гибридной схеме: чувствительное — локально, сложное и редкое — в облако.
Цензура, которую можно убрать
Это самая неоднозначная часть темы.
Все облачные модели — ChatGPT, Claude, Gemini — имеют встроенные ограничения. Компания решает, что модель скажет, а от чего откажется. Это часть продукта.
На локальных моделях ограничения убираются полностью.
В 2024 году исследователи описали метод «аблитерации» (abliteration): точечное редактирование весов модели, отвечающих за отказы. Стоимость — менее $200 и несколько часов времени на модель размером 70 миллиардов параметров. Отдельное исследование показало: 100 примеров и примерно час работы на потребительской видеокарте — и Llama 2 выполняет почти все запросы, которые раньше отклоняла.
Цифры из научной работы MDPI (2024): оригинальные модели выполняют небезопасные запросы в 19% случаев. Версии с убранными ограничениями — в 80%.
Незащищённые версии популярных моделей (Llama 2 Uncensored, Dolphin и другие) открыто доступны в репозитории Ollama. Для исследователей, журналистов, писателей это означает AI без редакционной политики американских корпораций. Очевидно, что этим же пользуются и в других целях.
Ключевой момент: всё это работает только локально. Облачные провайдеры контролируют свои модели. Локальная копия на вашем компьютере — нет.
Генерация изображений дома
Stable Diffusion — локальный аналог Midjourney. Работает на вашем компьютере, бесплатно.
Минимальный порог: 4 ГБ видеопамяти. Комфортный: 12 ГБ и выше. RTX 4090 генерирует 75 изображений в минуту. Современные версии — SDXL и Flux — вплотную приближаются по качеству к платным облачным сервисам.
Установка через интерфейсы Automatic1111 или ComfyUI занимает 15–20 минут по инструкции. Каждое изображение обходится в ноль рублей. Данные никуда не уходят.
Что происходит прямо сейчас
Несколько фактов, которые объясняют масштаб происходящего.
Рынок AI вырастет с $243 млрд в 2025 году до $827 млрд к 2030 — это прогноз со среднегодовым ростом 27% (CAGR, множество аналитиков сходятся на схожих цифрах).
71% российских компаний уже используют генеративный AI хотя бы в одном процессе — это данные Яков и Партнёры за 2025 год, рост на 17 процентных пунктов за год.
40% европейских IT-директоров называют защиту данных главным барьером при переходе в облачный AI (Protecto.ai, 2025). Это прямой аргумент в пользу локального развёртывания.
Для бизнеса это конкретная альтернатива: не платить за облачные API при больших объёмах, не отправлять корпоративные данные на сторонние серверы, автоматически соответствовать 152-ФЗ.
Три года назад запустить локальную языковую модель требовало серьёзной технической экспертизы. Сейчас — игровой компьютер и час времени.
Порог вошёл туда, где его игнорировать уже странно.
А вы пробовали запускать AI локально?