Локальный искусственный интеллект перестает быть нишевой технологией и становится доступным инструментом для бизнеса и разработчиков. IT-World расскажет, какие устройства — от компактных офисных ПК до мощных серверов — позволяют запускать и использовать нейросети без облака.
Резкий рост интереса к большим языковым моделям (LLM) и генеративному ИИ привел к структурным изменениям на рынке аппаратного обеспечения. Спрос со стороны гиперскейлеров и дата-центров, обслуживающих обучение и практическое использование моделей, вызвал удорожание ключевых компонентов: графических ускорителей, оперативной памяти (особенно HBM и DDR5) и высокоскоростных накопителей. Производственные мощности полупроводниковых фабрик ограничены, а приоритет отдается крупным корпоративным заказчикам, что закономерно отражается на доступности и стоимости «железа» для остальных сегментов. В результате локальные ИИ-решения, еще недавно считавшиеся нишевыми, становятся не только технологическим, но и экономическим ответом на происходящее. Можно сказать, что это естественная попытка приблизить вычисления к пользователю и снизить зависимость от облаков.
MSI Cubi Z AI 8M: от переговорки до фронт-офиса
Современный ИТ-рынок предлагает широкий спектр устройств, способных работать с ИИ локально, от базовых клиентских решений до полноценных вычислительных узлов. В начальном сегменте находятся компьютерные устройства с интегрированными ИИ-функциями: ноутбуки, мини-ПК и даже мобильные платформы с выделенными NPU (Neural Processing Unit). Такие сопроцессоры оптимизированы под матричные операции и использование нейросетей, что позволяет выполнять задачи вроде распознавания речи, обработки изображений или работы ассистентов без постоянного обращения к облаку. Однако в большинстве коммерческих реализаций (например, голосовые помощники или так называемые умные функции ОС) сохраняется гибридная модель: базовые операции могут выполняться локально, но сложные запросы и генеративные задачи часто требуют подключения к удаленным сервисам.
Компактные ПК массовых брендов способны запускать упрощенные или оптимизированные версии LLM класса 7B-13B (например, LLaMA, Mistral, Gemma) полностью офлайн. В таких сценариях часто применяется квантование 4–8 бит, что снижает нагрузку на память и вычислительные ресурсы. Для запуска достаточно 16–64 Гбайт ОЗУ или одной видеокарты с 8–16 Гбайт VRAM. Системы подходят для локальных ассистентов, базовой аналитики, генерации кода и обработки документов без облака. Чем меньше бит, тем выше экономия ресурсов, но точность модели падает. На минимальных конфигурациях или при использовании только центрального процессора скорость работы может быть низкой даже при квантовании в 4 бит. Для более плавного и быстрого функционирования нейросетевых моделей рекомендуется сочетание CPU, GPU и NPU, где каждый компонент выполняет свои оптимизированные задачи.
Полноценные локальные решения начинаются с высокопроизводительных рабочих станций. Это могут быть как специализированные сборки, так и адаптированные игровые конфигурации с мощными GPU уровня RTX 4080/4090 и выше. При наличии 24–48 Гбайт видеопамяти и достаточного объема ОЗУ (64–128 Гбайт) возможен запуск более крупных моделей (30B–70B и больше) с приемлемой скоростью работы, а также дообучение (fine-tuning) на собственных датасетах. Такие системы уже используются разработчиками, исследователями и компаниями, работающими с чувствительными данными, где критична изоляция и контроль над вычислительной средой.
На верхнем уровне находятся специализированные серверные решения с несколькими GPU (Multi-GPU), объединенными через высокоскоростные интерфейсы (NVLink, PCIe Gen5 и др.). Это полноценные платформы для обучения моделей, распределенного инференса (применение модели для генерации ответов без ее дообучения) и работы с большими датасетами. Конфигурации могут включать от 2–4 до 8+ ускорителей, сотни гигабайт оперативной памяти и быстрые NVMe-хранилища. Подобные системы предназначаются для обучения собственных нейросетей, проведения экспериментов в области глубокого обучения и построения корпоративных ИИ-сервисов без зависимости от облачных провайдеров.
Модельный ряд MSI Cubi NUC AI
Устройства линейки — это типичные локальные ИИ-устройства первого уровня: компактные ПК офисного форм-фактора, но с интеграцией специализированного нейронного сопроцессора (NPU). Модели вроде Cubi NUC AI 1UMG, Cubi NUC AI+ 2MG и Cubi Z AI 8M построены на современных энергоэффективных платформах (Intel Core Ultra или AMD Ryzen с AI-ускорением), где NPU берет на себя распознавание речи, шумоподавление, обработку изображений, базовые функции ассистентов и автоматизацию рабочих процессов. Это позволяет разгрузить CPU и GPU, снизить энергопотребление и обеспечить стабильную работу ИИ-функций даже в компактных системах без дискретной графики. С практической точки зрения такие устройства не предназначены для обучения моделей или работы с крупными LLM — их ниша локальное ускорение некоторых повседневных задач. Например, обработка видеопотока с веб-камеры (автокадрирование, размытие фона), локальная транскрибация, работа с документами, интеллектуальный поиск и базовая автоматизация.
MSI Cubi NUC AI 1UMG — это ультракомпактный мини-ПК (объем около 0,5 л, 120×115×37 мм, 0,55 кг) на базе процессоров Intel Core Ultra 5 125H/Ultra 7 155H, которые включают встроенный NPU (Intel AI Boost) для ускорения задач ИИ и интегрированную графику Intel. Система поддерживает до 64 Гбайт DDR5 (5200 МГц) в двух слотах и оснащена двумя NVMe SSD (M.2 2280 + 2242, PCIe 4.0). По интерфейсам устройство ближе к рабочей станции: 2× Thunderbolt 4, USB-C и USB-A 10 Гбит/с, 2× HDMI 2.1, два LAN 2.5GbE, Wi-Fi 6E/7 и Bluetooth 5.x, с поддержкой до четырех дисплеев. Платформа ориентирована на Windows 11 и локальные ИИ-задачи с возможностью оптимизации через фирменные инструменты вроде MSI AI Engine.
MSI Cubi NUC AI+ 2MG — компактное устройство класса Copilot+ PC (0,83 л, 136×132×50 мм, 0,67 кг) на базе процессоров Intel Core Ultra 5/7/9 (Lunar Lake, вплоть до Ultra 9 288V) с интегрированной графикой Intel Arc 130V/140V и встроенным NPU производительностью до ~48 TOPS, рассчитанным на локальные ИИ-задачи. Устройство оснащено 16–32 Гбайт памяти LPDDR5X (распаяна на плате) и одним SSD формата M.2 PCIe 4.0, работает под Windows 11 и ориентировано на энергоэффективное использование ИИ-функций. По интерфейсам это полноценная рабочая система: 2× Thunderbolt 4, USB-A 10 Гбит/с, HDMI 2.1, 2× LAN 2.5GbE, Wi-Fi 6E/7, Bluetooth 5.3/5.4, а также встроенные микрофон и динамик и отдельная кнопка Copilot. Конфигурация ориентирована на локальные ИИ-сценарии (обработка аудио/видео, ассистенты, автоматизация).
Вариант Cubi NUC AI+ 2MG позиционируется как Copilot+ PC, но важно учитывать региональные ограничения: полноценная интеграция облачного ассистента от Microsoft в России фактически недоступна, поэтому часть заявленных сценариев либо не работает, либо требует обходных решений. Однако лейбл Copilot+PC — это не только про сервис Microsoft, но и про набор требований, которым должно соответствовать устройство данного класса. У гаджета должен быть NPU-чип производительностью 40+ TOPS, современный центральный процессор (Ryzen AI/Intel Core Ultra/Snapdragon X) и программные оптимизации под локальный ИИ. Поэтому если сам Copilot недоступен в регионе, то это значит, что не действуют только облачные функции оригинального чат-бота Microsoft. Но собственные ИИ-решения производителей техники обычно работают, поскольку они запускаются локально либо через другие дата-центры. Сегодня свои ИИ-помощники есть у большинства компьютерных вендоров. Кроме того, никто не запрещает устанавливать и настраивать сторонние AI-инструменты, включая локальные LLM (Ollama, LM Studio и т. п.), генерацию изображений (Stable Diffusion), код-ассистенты и другие решения.
Модель Cubi Z AI 8M — еще один миниатюрный ПК на базе процессоров AMD Ryzen 8000 серии (Ryzen 5/7/9 8645HS–8945HS) со встроенной графикой Radeon и интегрированным NPU. Система поддерживает до 64 Гбайт DDR5 (5600 МГц) и оснащена быстрым накопителем M.2 NVMe PCIe 4.0, при этом вся платформа построена как энергоэффективное SoC-решение под Windows 11. Ситуация по интерфейсам следующая: 2× USB4 Type-C (до 40 Гбит/с, PD до 100 Вт), несколько USB Type-A, 2× HDMI 2.1, два сетевых порта 2.5GbE, Wi-Fi 6E и Bluetooth 5.3, с возможностью подключения до четырех дисплеев. Компактный корпус (136×132×50 мм, 0,8 кг) и блок питания 120 Вт делают его типичным представителем AI-ready офисных систем.
В целом, вся серия демонстрирует важный переход: ИИ перестает быть функцией только мощных GPU-систем и приходит в массовый сегмент, пусть и в упрощенном виде. Цены на компактные ИИ-станции этого класса варьируются в диапазоне 50–200 тысяч рублей в зависимости от конфигурации.
MSI EdgeXpert MS-C931
Это компактная (1,2 л, 151×151×52 мм, 1,2 кг) специализированная платформа для серьезных ИИ-нагрузок. Производитель позиционирует ее в качестве ИИ-суперкомпьютера. Устройство ориентировано на локальную обработку больших массивов данных и работу с LLM-моделями. В основе лежит современная архитектура NVIDIA Grace Blackwell GB10, состоящая из 20-ядерного ARM-процессора (10 Cortex-X925 + 10 Cortex-A725) и GPU-подсистемы Blackwell с производительностью до ~1000 TOPS (FP4). На борту системы 128 Гбайт объединенной оперативной памяти LPDDR5X с высокой пропускной способностью (~273 Гбайт/с), что критично для работы с большими моделями. В качестве хранилища используется NVMe-накопитель объемом 1–4 Тбайт.
Ключевая особенность — единое адресное пространство CPU+GPU (NVLink-C2C), обеспечивающее пропускную способность в несколько раз выше PCIe 5.0 и ускоряющее работу с ИИ-нагрузками. Устройство способно запускать LLM до 200 млрд параметров локально (и до 405 млрд при объединении двух систем), поддерживает полный цикл работы с моделями. По интерфейсам: 4× USB-C (USB 3.2), 10GbE, NVIDIA ConnectX-7, Wi-Fi 7, Bluetooth 5.x, HDMI 2.1, а в качестве программной среды используется специальная ОС NVIDIA DGX OS.
В отличие от потребительских решений устройство полностью ориентировано на локальный контур. Такие системы используются там, где критичны безопасность, задержки и контроль над данными: корпоративная аналитика, промышленный AI, обработка видео, обучение и дообучение моделей. В сравнении с офисными AI-устройствами здесь речь идет не о вспомогательных функциях, а о полноценной инфраструктуре для ИИ-задач. Разумеется, подобные решения находятся в другой ценовой категории (400–500 тысяч рублей), однако они отражают один из слоев верхнего сегмента рынка локального ИИ — возможность строить автономные AI-системы без зависимости от облаков.
MAIBENBEN PC95A
MAIBENBEN PC95A — компактная рабочая станция, специально созданная для развертывания языковой модели локально. Устройство построено на платформе AMD Ryzen AI MAX+ 395 (16 ядер/32 потока, до 5,1 ГГц), которая сочетает многоядерный CPU, графику Radeon 8060S и выделенный NPU-чип XDNA 2.
Ключевая особенность системы — объем и архитектура памяти. 128 Гбайт LPDDR5X с возможностью выделения до 96 Гбайт под видеоподсистему Radeon 8060S фактически компенсируют отсутствие дискретной GPU. Это критично для локального ИИ: именно объем доступной памяти чаще всего становится ограничением при запуске моделей. Встроенная графическая подсистема сопоставима с GPU уровня RTX 4070. В такой конфигурации устройство способно работать с крупными квантованными моделями (десятки миллиардов параметров) и поддерживать сценарии вроде локальных ассистентов, RAG-систем или анализа документов без обращения к облаку. При этом речь все еще не идет о полноценном обучении моделей, а скорее об их продвинутом практическом применении и экспериментальной работе с готовыми архитектурами.
Корпус выполнен в формате компактного алюминиевого куба, внутри которого реализована гибридная система охлаждения: жидкостный контур для ключевых компонентов и пассивно-активная вентиляция через множество микроперфораций. Это позволяет удерживать стабильные температуры даже при высокой нагрузке, что важно для длительных вычислений (например, при работе с ИИ или рендерингом). Энергопотребление процессора может достигать 140 Вт, что для такого форм-фактора является нетривиальным показателем и дополнительно подчеркивает класс устройства.
С точки зрения практического применения, PC95A занимает промежуточную нишу: альтернатива полноразмерным рабочим станциям и игровым сборкам для тех, кому важна компактность без критической потери производительности. Оно подходит для локальной разработки и тестирования ИИ-моделей, работы с графикой и видео, а также для задач, где требуется высокая вычислительная плотность. Наличие скоростных интерфейсов (USB4, 10GbE, вывод на несколько дисплеев вплоть до 8K) делает его удобным узлом в профессиональной инфраструктуре. Информации о стоимости пока нет.
GIGABYTE AERO X16
GIGABYTE AERO X16 — типичный представитель нового класса ноутбуков, где ИИ-возможности реализуются не через один компонент, а через связку CPU с NPU + дискретная GPU + программные ИИ-функции. В основе лежат процессоры серии AMD Ryzen AI (Ryzen AI 7 350 или Ryzen AI 9 HX 370), которые включают встроенный нейронный блок для ускорения задач инференса.
На практике это означает, что часть ИИ-задач (базовые ассистенты, распознавание речи, обработка изображения, шумоподавление, эффекты видеосвязи) выполняется локально и без постоянной нагрузки на центральный процессор или видеокарту. Параллельно используется дискретная графика уровня NVIDIA RTX 50-й серии (5050/5070), которая отвечает за более тяжелые сценарии: генеративный ИИ, работа с изображениями и видео, а также запуск моделей, оптимизированных под CUDA. При этом важно понимать, что это не устройство для полноценного локального обучения моделей, а мобильная рабочая станция для ИИ-задач, где вычисления распределяются между NPU и GPU. Дополнительный слой — программная интеграция. Ноутбук поддерживает AI-функции Windows (например, студийные эффекты для камеры и микрофона), включая шумоподавление и автообработку изображения в реальном времени. Это типичный пример того, как NPU применяется в пользовательских сценариях. К слову, у этого ноутбука, как и упомянутого ранее устройства MSI, есть маркировка Copilot+PC: впрочем, ее ценность для российского пользователя остается сомнительной.
GiMATE — это встроенный ИИ-ассистент GIGABYTE, который управляет ноутбуком с помощью естественных голосовых команд. В отличие от типичных помощников, он напрямую взаимодействует с системой: пользователь может просто сказать «хочу поиграть» или «у меня сейчас онлайн-встреча», а устройство автоматически подстроит производительность, звук, камеру и другие параметры под сценарий. Ассистент глубоко интегрирован в систему и работает как инструмент быстрой адаптации ноутбука под текущую задачу. Ключевая особенность — локальная работа ИИ. GiMATE использует встроенную языковую модель и аппаратное ускорение (NPU + GPU), что позволяет выполнять команды без постоянного подсоединения к облаку. Это важно для безопасности: данные пользователя, в том числе файлы и код, не покидают устройство. Внутри экосистемы есть специализированные инструменты: GiMATE Creator для генерации изображений (на базе моделей вроде Stable Diffusion) и GiMATE Coder для помощи разработчикам — генерации, автодополнения и рефакторинга кода. Оба решения действуют локально, без отправки данных во внешние сервисы, что делает их удобными для профессиональной работы с чувствительной информацией.
В целом AERO X16 отражает важный тренд рынка: ИИ становится встроенной функцией ноутбука, а не отдельной задачей под специализированное «железо». Пользователь получает не столько машину для нейросетей, сколько универсальное устройство, где AI-ускорение органично встроено в повседневные процессы. Стоимость ноутбука 120–180 тысяч рублей в зависимости от конфигурации.
Multi-GPU-сервер INFERIT
Это уже не просто компьютер, а полноценная серверная платформа для задач искусственного интеллекта, машинного обучения и обработки больших данных от российского вендора. В отличие от более простых устройств, здесь ключевой акцент сделан на масштабируемость: система поддерживает до 8 графических ускорителей (GPU) и до 2 серверных процессоров (Intel Xeon или AMD EPYC), что позволяет строить конфигурации под конкретные задачи, от обычного использования до обучения моделей.
С точки зрения ИИ-нагрузок это уровень, на котором можно работать с действительно крупными моделями и датасетами. Использование серверных процессоров, большой объем оперативной памяти (до 2 Тбайт) и поддержка профессиональных GPU, включая NVIDIA H100/H200, L40/L40S, AMD Radeon PRO W7800/7900 и другие, делают такие системы пригодными для обучения нейросетей, распределенного использования ранее обученных моделей (инференса) и построения корпоративных AI-сервисов. В отличие от потребительских решений, здесь важна не только производительность, но и непрерывная работа 24×7. В связи с этим стоит отметить архитектурные особенности сервера: жидкостное охлаждение и три вентилятора с ультравысоким потоком до 6200 RPM, высокоскоростные SSD с возможностью горячей замены и отказоустойчивые конфигурации питания. Можно установить до четырех блоков питания мощностью 2000 Вт (общая мощность до 8 кВт), способных работать в следующих режимах резервирования: 4+0, 3+1, 2+2. Это критично для ИИ-задач, где вычисления могут длиться часами и сутками без остановки. Такие серверы нужны в сценариях, где локальность и контроль над данными принципиальны: от медицины и финансов до научных исследований и корпоративной аналитики. Сервер готов к работе под управлением разных современных ОС («МСВСфера Сервер» 9, Ubuntu, Windows 10, Windows Server и т. д.). Стоимость по запросу.
В контексте обзора это верхний уровень локального ИИ: если компактные устройства ускоряют отдельные функции, а рабочие станции позволяют запускать модели, то подобные GPU-серверы — это уже инфраструктура, на которой такие модели создаются, обучаются и обслуживаются.
Послесловие
Рынок локального ИИ развивается крайне быстро: улучшаются методы оптимизации моделей (квантование, дистилляция), появляются более эффективные архитектуры, а производители «железа» активно интегрируют ИИ-ускорители даже в массовые устройства. Многие из упомянутых в обзоре устройств служат ярким подтверждением того, как локальный ИИ становится доступнее: еще недавно подобные задачи требовали мощных GPU-серверов или громоздких десктопов, тогда как теперь значительная часть сценариев может быть реализована на компактной машине с правильно сбалансированной архитектурой CPU, GPU, NPU и памяти. Барьер входа постепенно снижается, и сегодня уже возможно развернуть базовый ИИ-ассистент на обычном ПК или ноутбуке.
Отдельно стоит отметить интерес к использованию нейросетей в небольших устройствах на границах сети, например, в камерах видеонаблюдения или IoT-чипах, где ресурсы еще более ограничены, а связь с удаленными узлами недостаточно быстрая. Суть подхода в том, что обработка данных происходит прямо на устройстве, без передачи видеопотока в облако или на внешний сервер. Камера со встроенным NPU или специализированным AI-чипом способна в реальном времени выполнять задачи компьютерного зрения: распознавание лиц, обнаружение движения, классификацию объектов (человек, автомобиль и т. д.), подсчет людей или анализ поведения. При этом важно понимать, что возможности таких решений ограничены, поскольку используются сильно оптимизированные и квантованные модели, заточенные под конкретные задачи, а не универсальные LLM. Похожие сценарии реализованы в системах автопилотирования современных автомобилей, умных магазинах без касс, на производствах в области контроля качества. В каждом из них нейросети работают непосредственно на устройстве или рядом с источником данных, обеспечивая минимальные задержки, автономность и контроль над данными.
Несмотря на вышесказанное, по-настоящему производительные универсальные решения, способные конкурировать с облачными мощностями, остаются дорогими и требуют серьезных инвестиций в инфраструктуру.