Techno TON – лучшие подборки бытовой техники, электроники и полезных гаджетов. Только проверенные товары и выгодные предложения!

1189 подписчиков

Мини ПК для локального ИИ и LLM — реально ли запустить нейросеть дома в 2026 году

СегодняСегодня

8 мин

Локальный ИИ — один из главных трендов 2025–2026 годов. Вместо того чтобы отправлять запросы в ChatGPT или Яндекс GPT, всё больше людей хотят запускать языковые модели прямо у себя дома: конфиденциально, без подписки, без ограничений. Мини ПК — компактная и экономичная платформа для этого. Но реально ли это? Что нужно? И какой мини ПК выбрать? Разбираем честно. Забирайте всё в одном месте! 🚀 Подписывайтесь на Bestrobot в Telegram и участвуйте в розыгрыше пылесоса — удача любит смелых. А чтобы не пролететь мимо скидок, сохраняйте мой Календарь распродаж AliExpress и актуальные промокоды. Экономия начинается здесь и сейчас! • Конфиденциальность — ваши запросы и данные не покидают устройство • Независимость от облачных сервисов — работает без интернета, без подписки • Кастомизация — можно fine-tune модель под свои задачи, добавить свою документацию через RAG • Без цензуры — некоторые локальные модели менее ограничены, чем облачные • Постоянная доступность — нет лимитов запросов и очереде

Оглавление

Зачем запускать ИИ локально
Что определяет производительность в LLM
Программы для локального ИИ

Забирайте всё в одном месте! 🚀 Подписывайтесь на Bestrobot в Telegram и участвуйте в розыгрыше пылесоса — удача любит смелых. А чтобы не пролететь мимо скидок, сохраняйте мой Календарь распродаж AliExpress и актуальные промокоды. Экономия начинается здесь и сейчас!

Зачем запускать ИИ локально

• Конфиденциальность — ваши запросы и данные не покидают устройство

• Независимость от облачных сервисов — работает без интернета, без подписки

• Кастомизация — можно fine-tune модель под свои задачи, добавить свою документацию через RAG

• Без цензуры — некоторые локальные модели менее ограничены, чем облачные

• Постоянная доступность — нет лимитов запросов и очередей

Главное ограничение: локальные модели медленнее облачных Claude или GPT-4. Облако работает на кластерах из сотен GPU. Домашний мини ПК — одно устройство. Скорость генерации текста у топовых облачных моделей — 50–100 токенов/сек. Домашний мини ПК — 5–20 токенов/сек в зависимости от модели и железа.

Что определяет производительность в LLM

Объём памяти — главный параметр

Языковая модель должна полностью загрузиться в память перед работой. Llama 3 8B в 4-bit квантовании — около 5 ГБ. Llama 3 70B — около 40 ГБ. Qwen 2.5 72B — около 45 ГБ. Если памяти не хватает — модель частично уходит в RAM или на диск, и скорость падает катастрофически.

• 8 ГБ RAM/VRAM — малые модели 7–9B параметров (Llama 3.2 3B, Phi-4 Mini, Gemma 2 9B)

• 16 ГБ — средние модели 8–14B (Llama 3.1 8B, Qwen 2.5 14B, Mistral 7B)

• 32 ГБ — крупные модели 14–32B (Qwen 2.5 32B, DeepSeek-R1 32B)

• 64+ ГБ — большие модели 70B (Llama 3 70B, Qwen 72B)

• 128 ГБ — очень крупные модели 123B+ (Llama 3.1 405B частично)

Пропускная способность памяти

Для LLM важна не только ёмкость, но и скорость памяти. GPU с быстрой видеопамятью GDDR6X (RTX 4090) генерирует в 5–10 раз быстрее, чем тот же объём DDR5 в CPU. В мини ПК без дискретной GPU основную роль играет объединённая память (unified memory) с высокой пропускной способностью.

• RTX 4090 (24 ГБ GDDR6X, 1 ТБ/с): ~100–128 токенов/сек на Llama 3 8B — эталон

• Ryzen AI Max 395 unified memory (128 ГБ, ~270 ГБ/с): ~15–25 токенов/сек на 8B, ~5–8 на 70B

• Ryzen AI 9 HX 370 (LPDDR5X, ~135 ГБ/с): ~12–18 токенов/сек на 8B

• Ryzen 7 8845HS DDR5 SODIMM (~90 ГБ/с): ~8–12 токенов/сек на 8B

• Intel N100 DDR4 (~40 ГБ/с): ~2–4 токенов/сек на 8B — слишком медленно

Программы для локального ИИ

Ollama — самый простой способ

Ollama — менеджер LLM с простой установкой и CLI. Одна команда запускает модель и поднимает локальный API-сервер. Поддерживает все популярные модели: Llama, Qwen, Mistral, Gemma, DeepSeek, Phi. Устанавливается на Windows, macOS и Linux. Интерфейс через браузер — через Open WebUI (отдельная установка через Docker).

• Установка: скачать с ollama.com, запустить .exe (Windows) или curl-скрипт (Linux/macOS)

• Запуск модели: ollama run llama3.1:8b — скачает модель и откроет чат в терминале

• Популярные модели: llama3.3:8b, qwen2.5:14b, deepseek-r1:7b, phi4-mini

LM Studio — с удобным GUI

LM Studio — приложение с графическим интерфейсом для Windows и macOS. Позволяет скачивать модели из Hugging Face, переключаться между ними, настраивать параметры. Лучший выбор для тех, кто не хочет работать с командной строкой.

Jan.ai — ещё один GUI-вариант

Jan — открытый аналог LM Studio с чистым интерфейсом. Работает полностью офлайн, поддерживает все GGUF-модели, включает встроенный ассистент и API-сервер.

Stable Diffusion для генерации изображений

Для генерации изображений локально — Stable Diffusion через AUTOMATIC1111 WebUI или ComfyUI. Требует GPU с VRAM или поддержки CUDA/ROCm. На AMD iGPU (Radeon 780M/890M) — работает через DirectML или ROCm, но медленнее NVIDIA.

ТОП мини ПК для локального ИИ 2026

Уровень 1: начальный (модели 7–14B)

Beelink SER9 Pro — Ryzen AI 9 HX 370, 32 ГБ LPDDR5X

32 ГБ объединённой LPDDR5X памяти с пропускной способностью около 135 ГБ/с. Ollama Llama 3.1 8B: 12–18 токенов/сек. Qwen 2.5 14B в 4-bit: 6–10 токенов/сек. Больше 32B — не влезает. Для комфортной работы с моделями до 14B — хороший выбор. NPU 50 TOPS ускоряет некоторые операции инференса. Цена: 55 000–70 000 рублей.

• Для кого: разработчики и пользователи, которые работают с моделями до 14B параметров

• Ограничение: 32 ГБ нераспаянной памяти — не расширить

Geekom A9 Max — Ryzen AI 9 HX 370, до 96 ГБ DDR5

A9 Max с 64 или 96 ГБ DDR5 SODIMM открывает работу с моделями 70B. 64 ГБ DDR5 (~100 ГБ/с пропускная способность) — Llama 3 70B в 4-bit загружается и работает со скоростью 4–7 токенов/сек. Медленно, но работает. 96 ГБ — можно запускать Qwen 72B. Цена: 70 000–95 000 рублей плюс стоимость апгрейда ОЗУ до 64–96 ГБ.

• Для кого: пользователи, которым нужны крупные модели 70B при разумном бюджете

Уровень 2: оптимальный (модели до 70B)

Beelink GTR9 Pro / Minisforum AI370-G — Ryzen AI Max 395, 64–128 ГБ

Флагманское решение для домашнего ИИ в 2026 году. Ryzen AI Max 395 с unified memory до 128 ГБ — принципиально другой класс. Пропускная способность памяти: около 256–270 ГБ/с. Скорость генерации:

• Llama 3.1 8B на 64 ГБ: 20–30 токенов/сек — комфортная скорость

• Llama 3 70B на 128 ГБ: 8–12 токенов/сек — вполне приемлемо для работы

• Qwen 2.5 72B на 128 ГБ: 6–10 токенов/сек

• DeepSeek-R1 32B на 64 ГБ: 12–18 токенов/сек — хорошо для рассуждений

Это первое устройство в классе мини ПК, где крупные LLM работают с реально пригодной для работы скоростью. Radeon 8060S (40 CU) в Stable Diffusion через ROCm даёт вполне приемлемую скорость для SDXL-моделей. NPU 50 TOPS — ускоряет задачи с Windows AI и приложениями с поддержкой XDNA 2. Цена: от 110 000 рублей.

• Для кого: разработчики ИИ, исследователи, профессионалы, которым нужен локальный ИИ уровня GPT-3.5

GMKtec EVO-X2 — Ryzen AI Max 395, до 128 ГБ

Та же платформа, что GTR9 Pro. Альтернатива для тех, кому ближе GMKtec. Проверяйте актуальную цену и наличие в России перед покупкой.

Уровень 3: максимальный (Mac mini M4 Pro для macOS-ИИ)

Apple Mac mini M4 Pro — Core ML и Apple Intelligence

Для пользователей macOS — отдельная экосистема. Apple Core ML оптимизирован под Apple Silicon и работает быстрее, чем аналогичные задачи через Ollama на AMD. Llama 3.1 8B через Ollama на M4 Pro (48 ГБ): ~20–25 токенов/сек. Stable Diffusion через Core ML (Draw Things app): быстро и удобно. Apple Intelligence локально обрабатывает запросы прямо на устройстве без отправки в облако. Цена M4 Pro 48 ГБ: около 135 000 рублей.

Практические советы

Как выбрать модель под своё железо

Правило простое: объём модели в 4-bit квантовании (Q4_K_M) должен быть меньше доступной памяти минимум на 15–20% для нормальной работы контекста. Пример для 32 ГБ памяти: модель максимум ~25–27 ГБ = примерно 30B параметров.

RAG — умный поиск по своим документам

RAG (Retrieval-Augmented Generation) позволяет «скормить» модели вашу документацию, PDF-файлы, базу знаний — и задавать вопросы по ней. Инструменты: AnythingLLM (простой GUI), LlamaIndex (для разработчиков), Open WebUI с функцией RAG. Работает локально — ваши документы никуда не уходят.

Первый запуск через Ollama: шаги

• Установите Ollama с ollama.com (Windows или Linux)

• Запустите в терминале: ollama run qwen2.5:7b

• Первый запуск скачает модель (~4–5 ГБ), потом откроется чат

• Для GUI: установите Open WebUI через Docker — docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

FAQ — мини ПК для локального ИИ

Можно ли запустить LLM на N100-мини ПК?

Технически да — Ollama установится и запустит небольшую модель (Phi-4 Mini, Llama 3.2 3B). Но скорость 2–4 токена/сек делает работу некомфортной. N100 с 16 ГБ DDR4 — слишком медленный для практического использования LLM. Минимальная рекомендация — Ryzen AI 9 HX 370 с LPDDR5X.

Что лучше для локального ИИ — мини ПК или ноутбук с той же платформой?

Практически одинаково — тот же процессор, та же память. Мини ПК удобнее как постоянно работающий сервер с API (другие устройства в сети могут обращаться к нему). Ноутбук удобен для работы в разных местах. Для серверного использования (Ollama + Open WebUI как домашний ИИ-ассистент) — мини ПК предпочтительнее.

Насколько Ryzen AI Max 395 уступает RTX 4090 в LLM?

Для малых моделей 7–14B: RTX 4090 (24 ГБ VRAM) в 3–5 раз быстрее по токенам/сек. Но RTX 4090 не влезет в модели 70B — не хватит VRAM. Ryzen AI Max 395 с 128 ГБ тянет 70B модели там, где RTX 4090 не может. Это разные ниши, а не прямая конкуренция.

Стоит ли покупать Ryzen AI Max 395 только ради LLM?

Если LLM — единственная задача, то RTX 4090 в системном блоке за 80 000 рублей даст лучшую скорость для малых моделей. Ryzen AI Max 395 в мини ПК оправдан если нужно сочетание: компактность + мощный рабочий ПК + крупные LLM (70B+) без CUDA. Для чистых LLM-задач — системный блок с дискретной GPU эффективнее по цене.

Реклама: ООО "АЛИБАБА.КОМ (РУ)" ИНН: 7703380158