Поставил ИИ на домашний компьютер. Вот что он умеет — и чего не умеет

11 мая11 мая

4 мин

На домашнем компьютере прямо сейчас может работать AI, который год назад стоил тысячи долларов в месяц. Нужна обычная игровая видеокарта с 8 ГБ памяти. И всё. Это называется локальный AI. Никаких облаков, никаких подписок, никаких серверов в США. И это не хобби гиков — 70% крупных компаний мира уже планируют перенести часть AI-инфраструктуры на собственное железо. Разбираемся, как это работает и зачем вам это знать. Что такое локальный AI и чем он отличается от ChatGPT Когда вы пишете запрос в ChatGPT, ваш текст уходит на серверы в США. Там обрабатывается. Возвращается обратно. Компания видит, о чём вы спрашивали. Локальный AI работает иначе. Модель — это один файл весом от 4 до 40 ГБ — скачивается на ваш компьютер, и дальше всё происходит внутри вашей машины. Без интернета. Без подписки. Никто не видит ваши запросы. Главный инструмент для этого — программа Ollama. Бесплатная, устанавливается одной командой. По данным на 2025 год, в мире работает более 174 000 публично обнаруженных эк

На домашнем компьютере прямо сейчас может работать AI, который год назад стоил тысячи долларов в месяц. Нужна обычная игровая видеокарта с 8 ГБ памяти. И всё.

Это называется локальный AI. Никаких облаков, никаких подписок, никаких серверов в США. И это не хобби гиков — 70% крупных компаний мира уже планируют перенести часть AI-инфраструктуры на собственное железо.

Разбираемся, как это работает и зачем вам это знать.

Что такое локальный AI и чем он отличается от ChatGPT

Когда вы пишете запрос в ChatGPT, ваш текст уходит на серверы в США. Там обрабатывается. Возвращается обратно. Компания видит, о чём вы спрашивали.

Локальный AI работает иначе. Модель — это один файл весом от 4 до 40 ГБ — скачивается на ваш компьютер, и дальше всё происходит внутри вашей машины. Без интернета. Без подписки. Никто не видит ваши запросы.

Главный инструмент для этого — программа Ollama. Бесплатная, устанавливается одной командой. По данным на 2025 год, в мире работает более 174 000 публично обнаруженных экземпляров Ollama — реальная цифра значительно выше.

Какое железо нужно: честные цифры

Без воды — конкретные пороги.

8 ГБ видеопамяти (RTX 3060, RTX 4060, RTX 3070):

Запускаете 7-8-миллиардные модели: Mistral 7B, Llama 3.1 8B, Gemma 2
Это уровень «умный помощник» — пишет тексты, отвечает на вопросы, суммирует документы
Скорость: 20–40 токенов в секунду, читаемый ответ в реальном времени
Это минимальный рабочий порог на сегодня

16–24 ГБ видеопамяти (RTX 4070 Ti, RTX 4080, RTX 3090):

13-миллиардные модели — заметно рассудительнее и точнее
Одновременно с текстом можно запустить генерацию изображений
Уже серьёзный инструмент для работы: анализ документов, код, переводы

48+ ГБ видеопамяти (две RTX 4090 или профессиональные карты):

70-миллиардные модели — уровень GPT-4 образца 2023 года
RTX 4090 генерирует 75 изображений 1024×1024 в минуту (данные irendering.net, 2025)

Важная деталь: квантизация. Это метод сжатия модели, который снижает требования к памяти в 3–4 раза при минимальной потере качества. 8-миллиардная модель в 4-битном формате занимает 4–5 ГБ вместо 16 ГБ. Именно квантизация сделала 8 ГБ реальным входным порогом.

Нет мощной видеокарты? Модель запустится на процессоре при 16+ ГБ оперативной памяти. Медленнее в несколько раз — но работает.

Что делать локально, а что лучше отдать облаку

Локальный AI не заменяет облачный во всём. Вот честное разделение.

Локально хорошо:

Конфиденциальные документы: юридические тексты, медицинские данные, финансовые отчёты — никуда не уходят
Высокие объёмы запросов: облачный API для 500 000 обращений в поддержку обходится в $10 000 в месяц, локальная модель DeepSeek — меньше $1 000 (данные softwaretailor.com, 2025)
Работа без интернета
Генерация изображений без ограничений по стилю

Облако лучше:

Нужна самая свежая и мощная модель (GPT-4o, Claude 3.7, Gemini 2.5)
Редкие запросы — покупать железо ради них не имеет смысла
Работа с актуальными интернет-данными в режиме реального времени

Большинство компаний приходят к гибридной схеме: чувствительное — локально, сложное и редкое — в облако.

Цензура, которую можно убрать

Это самая неоднозначная часть темы.

Все облачные модели — ChatGPT, Claude, Gemini — имеют встроенные ограничения. Компания решает, что модель скажет, а от чего откажется. Это часть продукта.

На локальных моделях ограничения убираются полностью.

В 2024 году исследователи описали метод «аблитерации» (abliteration): точечное редактирование весов модели, отвечающих за отказы. Стоимость — менее $200 и несколько часов времени на модель размером 70 миллиардов параметров. Отдельное исследование показало: 100 примеров и примерно час работы на потребительской видеокарте — и Llama 2 выполняет почти все запросы, которые раньше отклоняла.

Цифры из научной работы MDPI (2024): оригинальные модели выполняют небезопасные запросы в 19% случаев. Версии с убранными ограничениями — в 80%.

Незащищённые версии популярных моделей (Llama 2 Uncensored, Dolphin и другие) открыто доступны в репозитории Ollama. Для исследователей, журналистов, писателей это означает AI без редакционной политики американских корпораций. Очевидно, что этим же пользуются и в других целях.

Ключевой момент: всё это работает только локально. Облачные провайдеры контролируют свои модели. Локальная копия на вашем компьютере — нет.

Генерация изображений дома

Stable Diffusion — локальный аналог Midjourney. Работает на вашем компьютере, бесплатно.

Минимальный порог: 4 ГБ видеопамяти. Комфортный: 12 ГБ и выше. RTX 4090 генерирует 75 изображений в минуту. Современные версии — SDXL и Flux — вплотную приближаются по качеству к платным облачным сервисам.

Установка через интерфейсы Automatic1111 или ComfyUI занимает 15–20 минут по инструкции. Каждое изображение обходится в ноль рублей. Данные никуда не уходят.

Что происходит прямо сейчас

Несколько фактов, которые объясняют масштаб происходящего.

Рынок AI вырастет с $243 млрд в 2025 году до $827 млрд к 2030 — это прогноз со среднегодовым ростом 27% (CAGR, множество аналитиков сходятся на схожих цифрах).

71% российских компаний уже используют генеративный AI хотя бы в одном процессе — это данные Яков и Партнёры за 2025 год, рост на 17 процентных пунктов за год.

40% европейских IT-директоров называют защиту данных главным барьером при переходе в облачный AI (Protecto.ai, 2025). Это прямой аргумент в пользу локального развёртывания.

Для бизнеса это конкретная альтернатива: не платить за облачные API при больших объёмах, не отправлять корпоративные данные на сторонние серверы, автоматически соответствовать 152-ФЗ.

Три года назад запустить локальную языковую модель требовало серьёзной технической экспертизы. Сейчас — игровой компьютер и час времени.

Порог вошёл туда, где его игнорировать уже странно.

А вы пробовали запускать AI локально?