Локальный ИИ — один из главных трендов 2025–2026 годов. Вместо того чтобы отправлять запросы в ChatGPT или Яндекс GPT, всё больше людей хотят запускать языковые модели прямо у себя дома: конфиденциально, без подписки, без ограничений. Мини ПК — компактная и экономичная платформа для этого. Но реально ли это? Что нужно? И какой мини ПК выбрать? Разбираем честно.
Забирайте всё в одном месте! 🚀 Подписывайтесь на Bestrobot в Telegram и участвуйте в розыгрыше пылесоса — удача любит смелых. А чтобы не пролететь мимо скидок, сохраняйте мой Календарь распродаж AliExpress и актуальные промокоды. Экономия начинается здесь и сейчас!
Зачем запускать ИИ локально
• Конфиденциальность — ваши запросы и данные не покидают устройство
• Независимость от облачных сервисов — работает без интернета, без подписки
• Кастомизация — можно fine-tune модель под свои задачи, добавить свою документацию через RAG
• Без цензуры — некоторые локальные модели менее ограничены, чем облачные
• Постоянная доступность — нет лимитов запросов и очередей
Главное ограничение: локальные модели медленнее облачных Claude или GPT-4. Облако работает на кластерах из сотен GPU. Домашний мини ПК — одно устройство. Скорость генерации текста у топовых облачных моделей — 50–100 токенов/сек. Домашний мини ПК — 5–20 токенов/сек в зависимости от модели и железа.
Что определяет производительность в LLM
Объём памяти — главный параметр
Языковая модель должна полностью загрузиться в память перед работой. Llama 3 8B в 4-bit квантовании — около 5 ГБ. Llama 3 70B — около 40 ГБ. Qwen 2.5 72B — около 45 ГБ. Если памяти не хватает — модель частично уходит в RAM или на диск, и скорость падает катастрофически.
• 8 ГБ RAM/VRAM — малые модели 7–9B параметров (Llama 3.2 3B, Phi-4 Mini, Gemma 2 9B)
• 16 ГБ — средние модели 8–14B (Llama 3.1 8B, Qwen 2.5 14B, Mistral 7B)
• 32 ГБ — крупные модели 14–32B (Qwen 2.5 32B, DeepSeek-R1 32B)
• 64+ ГБ — большие модели 70B (Llama 3 70B, Qwen 72B)
• 128 ГБ — очень крупные модели 123B+ (Llama 3.1 405B частично)
Пропускная способность памяти
Для LLM важна не только ёмкость, но и скорость памяти. GPU с быстрой видеопамятью GDDR6X (RTX 4090) генерирует в 5–10 раз быстрее, чем тот же объём DDR5 в CPU. В мини ПК без дискретной GPU основную роль играет объединённая память (unified memory) с высокой пропускной способностью.
• RTX 4090 (24 ГБ GDDR6X, 1 ТБ/с): ~100–128 токенов/сек на Llama 3 8B — эталон
• Ryzen AI Max 395 unified memory (128 ГБ, ~270 ГБ/с): ~15–25 токенов/сек на 8B, ~5–8 на 70B
• Ryzen AI 9 HX 370 (LPDDR5X, ~135 ГБ/с): ~12–18 токенов/сек на 8B
• Ryzen 7 8845HS DDR5 SODIMM (~90 ГБ/с): ~8–12 токенов/сек на 8B
• Intel N100 DDR4 (~40 ГБ/с): ~2–4 токенов/сек на 8B — слишком медленно
Программы для локального ИИ
Ollama — самый простой способ
Ollama — менеджер LLM с простой установкой и CLI. Одна команда запускает модель и поднимает локальный API-сервер. Поддерживает все популярные модели: Llama, Qwen, Mistral, Gemma, DeepSeek, Phi. Устанавливается на Windows, macOS и Linux. Интерфейс через браузер — через Open WebUI (отдельная установка через Docker).
• Установка: скачать с ollama.com, запустить .exe (Windows) или curl-скрипт (Linux/macOS)
• Запуск модели: ollama run llama3.1:8b — скачает модель и откроет чат в терминале
• Популярные модели: llama3.3:8b, qwen2.5:14b, deepseek-r1:7b, phi4-mini
LM Studio — с удобным GUI
LM Studio — приложение с графическим интерфейсом для Windows и macOS. Позволяет скачивать модели из Hugging Face, переключаться между ними, настраивать параметры. Лучший выбор для тех, кто не хочет работать с командной строкой.
Jan.ai — ещё один GUI-вариант
Jan — открытый аналог LM Studio с чистым интерфейсом. Работает полностью офлайн, поддерживает все GGUF-модели, включает встроенный ассистент и API-сервер.
Stable Diffusion для генерации изображений
Для генерации изображений локально — Stable Diffusion через AUTOMATIC1111 WebUI или ComfyUI. Требует GPU с VRAM или поддержки CUDA/ROCm. На AMD iGPU (Radeon 780M/890M) — работает через DirectML или ROCm, но медленнее NVIDIA.
ТОП мини ПК для локального ИИ 2026
Уровень 1: начальный (модели 7–14B)
Beelink SER9 Pro — Ryzen AI 9 HX 370, 32 ГБ LPDDR5X
32 ГБ объединённой LPDDR5X памяти с пропускной способностью около 135 ГБ/с. Ollama Llama 3.1 8B: 12–18 токенов/сек. Qwen 2.5 14B в 4-bit: 6–10 токенов/сек. Больше 32B — не влезает. Для комфортной работы с моделями до 14B — хороший выбор. NPU 50 TOPS ускоряет некоторые операции инференса. Цена: 55 000–70 000 рублей.
• Для кого: разработчики и пользователи, которые работают с моделями до 14B параметров
• Ограничение: 32 ГБ нераспаянной памяти — не расширить
Geekom A9 Max — Ryzen AI 9 HX 370, до 96 ГБ DDR5
A9 Max с 64 или 96 ГБ DDR5 SODIMM открывает работу с моделями 70B. 64 ГБ DDR5 (~100 ГБ/с пропускная способность) — Llama 3 70B в 4-bit загружается и работает со скоростью 4–7 токенов/сек. Медленно, но работает. 96 ГБ — можно запускать Qwen 72B. Цена: 70 000–95 000 рублей плюс стоимость апгрейда ОЗУ до 64–96 ГБ.
• Для кого: пользователи, которым нужны крупные модели 70B при разумном бюджете
Уровень 2: оптимальный (модели до 70B)
Beelink GTR9 Pro / Minisforum AI370-G — Ryzen AI Max 395, 64–128 ГБ
Флагманское решение для домашнего ИИ в 2026 году. Ryzen AI Max 395 с unified memory до 128 ГБ — принципиально другой класс. Пропускная способность памяти: около 256–270 ГБ/с. Скорость генерации:
• Llama 3.1 8B на 64 ГБ: 20–30 токенов/сек — комфортная скорость
• Llama 3 70B на 128 ГБ: 8–12 токенов/сек — вполне приемлемо для работы
• Qwen 2.5 72B на 128 ГБ: 6–10 токенов/сек
• DeepSeek-R1 32B на 64 ГБ: 12–18 токенов/сек — хорошо для рассуждений
Это первое устройство в классе мини ПК, где крупные LLM работают с реально пригодной для работы скоростью. Radeon 8060S (40 CU) в Stable Diffusion через ROCm даёт вполне приемлемую скорость для SDXL-моделей. NPU 50 TOPS — ускоряет задачи с Windows AI и приложениями с поддержкой XDNA 2. Цена: от 110 000 рублей.
• Для кого: разработчики ИИ, исследователи, профессионалы, которым нужен локальный ИИ уровня GPT-3.5
GMKtec EVO-X2 — Ryzen AI Max 395, до 128 ГБ
Та же платформа, что GTR9 Pro. Альтернатива для тех, кому ближе GMKtec. Проверяйте актуальную цену и наличие в России перед покупкой.
Уровень 3: максимальный (Mac mini M4 Pro для macOS-ИИ)
Apple Mac mini M4 Pro — Core ML и Apple Intelligence
Для пользователей macOS — отдельная экосистема. Apple Core ML оптимизирован под Apple Silicon и работает быстрее, чем аналогичные задачи через Ollama на AMD. Llama 3.1 8B через Ollama на M4 Pro (48 ГБ): ~20–25 токенов/сек. Stable Diffusion через Core ML (Draw Things app): быстро и удобно. Apple Intelligence локально обрабатывает запросы прямо на устройстве без отправки в облако. Цена M4 Pro 48 ГБ: около 135 000 рублей.
Популярные LLM для домашнего использования
Для чата и ответов на вопросы
• Llama 3.3 8B (Meta) — хороший баланс качества и скорости, поддерживает русский язык
• Qwen 2.5 14B/72B (Alibaba) — отличный русский язык, кодирование, рассуждения
• Gemma 3 12B (Google) — быстрый, хорошее качество для своего размера
• Mistral Small 22B — высокое качество при умеренном размере
Для программирования
• DeepSeek Coder V2 16B — лучший код-ассистент в своём размере
• Qwen 2.5 Coder 14B — хороший для Python, JS, Go
• CodeLlama 34B — если хватает памяти
Для рассуждений (Reasoning модели)
• DeepSeek-R1 7B/32B — думает шаг за шагом, решает сложные задачи
• QwQ 32B (Qwen) — сильный reasoning при умеренном размере
Для мультимодальных задач (текст + изображения)
• Llava 13B — описывает изображения, отвечает на вопросы о фото
• Qwen-VL 7B — мультимодальная с хорошим качеством
Практические советы
Как выбрать модель под своё железо
Правило простое: объём модели в 4-bit квантовании (Q4_K_M) должен быть меньше доступной памяти минимум на 15–20% для нормальной работы контекста. Пример для 32 ГБ памяти: модель максимум ~25–27 ГБ = примерно 30B параметров.
RAG — умный поиск по своим документам
RAG (Retrieval-Augmented Generation) позволяет «скормить» модели вашу документацию, PDF-файлы, базу знаний — и задавать вопросы по ней. Инструменты: AnythingLLM (простой GUI), LlamaIndex (для разработчиков), Open WebUI с функцией RAG. Работает локально — ваши документы никуда не уходят.
Первый запуск через Ollama: шаги
• Установите Ollama с ollama.com (Windows или Linux)
• Запустите в терминале: ollama run qwen2.5:7b
• Первый запуск скачает модель (~4–5 ГБ), потом откроется чат
• Для GUI: установите Open WebUI через Docker — docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
FAQ — мини ПК для локального ИИ
Можно ли запустить LLM на N100-мини ПК?
Технически да — Ollama установится и запустит небольшую модель (Phi-4 Mini, Llama 3.2 3B). Но скорость 2–4 токена/сек делает работу некомфортной. N100 с 16 ГБ DDR4 — слишком медленный для практического использования LLM. Минимальная рекомендация — Ryzen AI 9 HX 370 с LPDDR5X.
Что лучше для локального ИИ — мини ПК или ноутбук с той же платформой?
Практически одинаково — тот же процессор, та же память. Мини ПК удобнее как постоянно работающий сервер с API (другие устройства в сети могут обращаться к нему). Ноутбук удобен для работы в разных местах. Для серверного использования (Ollama + Open WebUI как домашний ИИ-ассистент) — мини ПК предпочтительнее.
Насколько Ryzen AI Max 395 уступает RTX 4090 в LLM?
Для малых моделей 7–14B: RTX 4090 (24 ГБ VRAM) в 3–5 раз быстрее по токенам/сек. Но RTX 4090 не влезет в модели 70B — не хватит VRAM. Ryzen AI Max 395 с 128 ГБ тянет 70B модели там, где RTX 4090 не может. Это разные ниши, а не прямая конкуренция.
Стоит ли покупать Ryzen AI Max 395 только ради LLM?
Если LLM — единственная задача, то RTX 4090 в системном блоке за 80 000 рублей даст лучшую скорость для малых моделей. Ryzen AI Max 395 в мини ПК оправдан если нужно сочетание: компактность + мощный рабочий ПК + крупные LLM (70B+) без CUDA. Для чистых LLM-задач — системный блок с дискретной GPU эффективнее по цене.
Реклама: ООО "АЛИБАБА.КОМ (РУ)" ИНН: 7703380158