1 подписчик

Запуск мощных нейросетей локально (на домашнем ПК, без интернета) и БЕЗ ЦЕНЗУРЫ — один из главных трендов в мире ИИ

5 марта5 мар

17 мин

Вы наверняка наткнулись уже на новость о выходе Qwen3.5 от Alibaba! Запуск мощных нейросетей локально (прямо на домашнем ПК, без интернета) — это сейчас один из главных трендов в мире технологий. Это удивительный процесс, который стал намного проще, чем был еще пару лет назад. Это именно база знаний, а не просто алгоритм. Когда разработчики тренируют такую модель, она «прочитывает» терабайты информации из интернета, книг и кода. Однако модель не сохраняет эти тексты в виде архива (как скачанная Википедия). Она сжимает всю эту информацию в математические связи (так называемые «веса» или параметры). Поэтому скачанный файл: Вес модели зависит от количества её параметров (измеряется в миллиардах — Billion или "B") и от того, насколько сильно этот файл сжали (это называется квантованием). Раньше для этого нужно было быть программистом, но сейчас всё делается буквально в пару кликов, почти как установка игры. Сами файлы моделей обычно хранятся на сайте Hugging Face (это такой бесплатный ката

Оглавление

1. Что внутри: знания или методология?
2. Сколько они весят?
3. Как их скачивают и устанавливают?

Вы наверняка наткнулись уже на новость о выходе Qwen3.5 от Alibaba! Запуск мощных нейросетей локально (прямо на домашнем ПК, без интернета) — это сейчас один из главных трендов в мире технологий.

habr.com

Alibaba представила Qwen3.5: open-weights гигант на 397B и «агентный» Qwen3.5-Plus в облаке

Это удивительный процесс, который стал намного проще, чем был еще пару лет назад.

1. Что внутри: знания или методология?

Это именно база знаний, а не просто алгоритм. Когда разработчики тренируют такую модель, она «прочитывает» терабайты информации из интернета, книг и кода.

Однако модель не сохраняет эти тексты в виде архива (как скачанная Википедия). Она сжимает всю эту информацию в математические связи (так называемые «веса» или параметры). Поэтому скачанный файл:

Знает факты: Может рассказать историю Рима, написать код на Python или перевести текст.
Не требует интернета: Вся база для генерации ответов уже зашита внутри файла.
Может фантазировать: Так как знания хранятся в виде вероятностей, а не точных цитат, локальная модель (как и облачная) может иногда ошибаться или «галлюцинировать».

2. Сколько они весят?

Вес модели зависит от количества её параметров (измеряется в миллиардах — Billion или "B") и от того, насколько сильно этот файл сжали (это называется квантованием).

Маленькие модели (7B - 8B параметров): Весят около 4–6 ГБ. Отлично подходят для простых задач, работают даже на обычных ноутбуках.
Средние модели (Medium, от 14B до 32B): Весят от 10 до 25 ГБ. Именно о таких пишут в статье: они уже могут соревноваться с большими облачными версиями, отлично пишут код и понимают контекст.
Гигантские модели (70B и выше): Весят от 40 ГБ и больше. Требуют мощных серверов или топовых геймерских компьютеров.

3. Как их скачивают и устанавливают?

Раньше для этого нужно было быть программистом, но сейчас всё делается буквально в пару кликов, почти как установка игры. Сами файлы моделей обычно хранятся на сайте Hugging Face (это такой бесплатный каталог для AI-разработчиков), но вам туда заходить необязательно.

Для обычных пользователей созданы специальные программы-оболочки. Самые популярные:

LM Studio или GPT4All: Вы скачиваете программу (она выглядит как окно обычного чата). Внутри есть встроенный «магазин» моделей. Вы вводите в поиск, например, Qwen, нажимаете кнопку «Скачать», ждете загрузки файла и сразу можете с ним переписываться.
Ollama: Удобная утилита, которая позволяет скачивать и запускать модели одной простой командой в терминале (например, ollama run qwen).

Главный нюанс при работе с ними:
Чтобы локальная модель работала быстро и выдавала слова без задержек, файл модели должен целиком поместиться в оперативную память (RAM) или, что еще лучше, в видеопамять вашей видеокарты (VRAM). Если памяти не хватает, компьютер будет сильно тормозить.

МАНИФЕСТ НЕЗАВИСИМОСТИ: NEBIUS OLARES – NOTHING CENTRALIZED EDITION

Рихард Зорге возвращается11 ноября 2025

Под капотом локальных ИИ-моделей происходит настоящая магия огромных чисел, но логика работы компонентов компьютера при этом довольно прозрачна.

Чтобы было проще, давайте представим, что ваш компьютер — это ресторан, а ИИ-модель — это огромная, сложная книга рецептов.

Вот кто за что отвечает и как путешествуют данные:

1. Жесткий диск / SSD (Винчестер) = Книжная полка

Роль: Долгосрочное хранилище. Здесь наша "книга рецептов" (файл модели на 10–25 ГБ) лежит, пока вы не запустите программу.
Что происходит: Сам по себе диск медленный. Читать данные прямо с него во время общения с ИИ невозможно — нейросеть будет отвечать по одной букве в минуту. Поэтому диск нужен только для хранения.

2. Оперативная память (RAM) = Кухонный стол

Роль: Рабочее пространство. Когда вы нажимаете кнопку «Загрузить модель», компьютер берет файл с SSD и копирует его в оперативную память.
Что происходит: Это называется «загрузкой весов модели». Если у вас нет мощной видеокарты, модель так и останется в RAM, и с ней будет работать центральный процессор. Именно поэтому для локального ИИ нужно много оперативки (обычно от 16 до 32 ГБ).

3. Видеокарта (GPU) и Видеопамять (VRAM) = Команда су-шефов и их личный супер-стол

Роль: Главная рабочая лошадка современного ИИ. Видеопамять (VRAM) — это самая быстрая память в компьютере.
Что происходит: В идеальном сценарии модель переносится со стола (RAM) на супер-стол (VRAM). Центральный процессор (CPU) имеет всего 8–16 очень умных ядер (как один шеф-повар). А вот видеокарта имеет тысячи более простых ядер (как армия су-шефов). Нейросети — это сплошное перемножение огромных матриц чисел. Армия су-шефов на видеокарте делает это в десятки раз быстрее, чем один умный шеф-повар.

Именно поэтому в мире ИИ сейчас так ценятся видеокарты (особенно NVIDIA) с большим объемом памяти (от 12 до 24 ГБ).

🔄 Как всё это работает вместе (Маршрут данных)

Давайте проследим путь от вашего вопроса до ответа нейросети шаг за шагом:

Загрузка (SSD ➡️ RAM ➡️ VRAM): Вы открываете программу (например, LM Studio). Тяжелый файл модели считывается с диска и помещается в видеопамять (чтобы считалось быстро).
Ваш запрос (Вы ➡️ CPU ➡️ GPU): Вы печатаете: "Почему небо синее?" и жмете Enter. Центральный процессор (CPU) превращает ваши слова в цифры (токены), потому что ИИ не понимает букв. Затем CPU отправляет эти цифры на видеокарту.
Магия вычислений (Внутри GPU): Видеокарта прогоняет ваши цифры через все 14 миллиардов параметров (ту самую базу знаний). Она делает миллиарды математических операций за доли секунды, чтобы вычислить только одно следующее слово. Например, слово "Небо".
Возврат на экран (GPU ➡️ CPU ➡️ Экран): Видеокарта отдает цифру, означающую слово "Небо", обратно процессору. Процессор превращает цифру в текст и выводит на экран.
Цикл повторяется: Чтобы сгенерировать следующее слово, видеокарта снова берет весь контекст ("Почему небо синее? Небо") и вычисляет следующее слово ("кажется"). Этот цикл гоняется туда-сюда для каждого слова!

Именно поэтому, когда вы смотрите, как ИИ печатает текст, вы буквально видите скорость, с которой ваша видеокарта успевает провернуть миллиарды вычислений для каждого нового слова.

Что нужно для запуска?

Если вы захотите запустить такую модель уровня «Medium» (как Qwen 14B из статьи выше) дома, чтобы она отвечала быстро, вам понадобится примерно такой ПК:

Оперативная память (RAM): 32 ГБ.
Видеокарта: В идеале NVIDIA с 12 ГБ или 16 ГБ видеопамяти (например, RTX 3060 12GB или RTX 4070 Ti Super).
(Кстати, компьютеры Apple на чипах M-серии (M2/M3 Pro или Max) справляются с этим гениально, потому что у них общая память для CPU и GPU, и в нее помещаются огромные модели).

☁️Olares: Персональное Облако с Открытым Кодом

Рихард Зорге возвращается9 ноября 2025

Чаще всего в индустрии звучит такой термин как «объединенная» или «унифицированная память» (Unified Memory). Иногда ее называют когерентной. Чтобы понять, в чем ее суперсила, давайте вернемся к нашей аналогии с рестораном:

В классическом ПК у нас есть кухонный стол (RAM для процессора) и отдельный супер-стол для су-шефов (VRAM для видеокарты). Проблема в том, что между ними узкий коридор (шина PCIe). Если шеф-повар (CPU) подготовил ингредиенты, ему нужно брать тележку и долго везти их по коридору на стол к су-шефам (копировать данные из RAM в VRAM). Это создает огромные задержки («бутылочное горлышко»).

Унифицированная память ломает эту стену. Процессор и видеокарта теперь сидят за одним гигантским общим столом. Им больше не нужно никуда носить данные: процессор положил информацию на стол, а видеокарта мгновенно взяла её с того же самого места.

Пример: Архитектура когерентной памяти в GIGABYTE AI TOP ATOM или DGX Spark

Этот мини-суперкомпьютер построен на новейшей платформе NVIDIA GB10 Grace Blackwell. Его архитектура памяти — это то, что делает его уникальным на рынке. Вот ее главные свойства и цифры:

1. Единый пул на 128 ГБ (LPDDR5x) унифицированной памяти
В компьютере нет отдельной оперативной памяти и отдельной видеопамяти. Там установлен единый массив сверхбыстрой памяти на 128 ГБ, который динамически делится между 20-ядерным процессором ARM и мощным графическим чипом Blackwell.

2. Аппаратная когерентность (Coherent Memory)
Это значит, что и CPU, и GPU «видят» память абсолютно одинаково. Если процессор изменяет какую-то переменную в памяти, графический чип узнает об этом в ту же микросекунду без всяких дополнительных команд. Это критически важно для ИИ, где процессор часто готовит токены (текст), а GPU их сразу же обрабатывает.

3. Сумасшедшая пропускная способность
Память работает на 256-битной шине с пропускной способностью 273 ГБ/с. Это позволяет чипу мгновенно «заглатывать» огромные куски нейросети для вычислений, не простаивая в ожидании данных.

Почему это меняет правила игры для ИИ? Вспомните, мы обсуждали, что для работы больших моделей файл должен поместиться в память видеокарты.
Модели-гиганты на 100–200 миллиардов параметров весят очень много (от 70 до 120 ГБ). Чтобы запустить их на обычном ПК или сервере, вам пришлось бы купить 4–6 топовых видеокарт (например, RTX 4090), просто чтобы объединить их маленькие кусочки VRAM (по 24 ГБ) в один большой пул. Это огромный шумный сервер, потребляющий киловатты энергии.

В случае с Gigabyte ATOM благодаря унифицированной памяти вы можете загрузить модель-гигант (вплоть до 200 миллиардов параметров) прямо в эти общие 128 ГБ. Графический чип сразу же начнет с ней работать.

В результате мы получаем устройство, которое по размеру чуть больше стопки книг (объем всего 1 литр), потребляет скромные 240 Вт, но может тягаться с огромными серверными стойками при локальном запуске ИИ.

Кстати, у Apple в их процессорах M-серии (M1/M2/M3/M4 Max и Ultra) используется точно такой же принцип унифицированной памяти, поэтому разработчики сейчас так любят MacBook для локальных тестов нейросетей.

ИИ-энтузиасты и DIY-коммьюнити

Рихард Зорге возвращается13 ноября 2025

К сожалению (или счастью?), к этому мини-суперкомпьютеру добавить новые\другие комплектующие невозможно. По своей философии Gigabyte ATOM и архитектура NVIDIA Grace Blackwell в целом — это закрытая монолитная система. Она ближе к Apple Mac Studio или мощной игровой приставке, чем к классическому системному блоку, который можно собирать как конструктор. Вот почему ваши детали к нему не подойдут:

1. Почему нельзя добавить планки памяти?

Та самая унифицированная память LPDDR5x на 128 ГБ, о которой мы говорили, намертво распаяна на материнской плате вплотную к процессору. Это физическая необходимость: только находясь на минимальном расстоянии от вычислительных ядер, память может выдавать ту самую огромную скорость в 273 ГБ/с без задержек.
В этом компьютере просто нет слотов (DIMM/SO-DIMM), куда можно было бы вставить обычные планки памяти. Компьютер навсегда останется с тем объемом, с которым вышел с завода.

2. Почему нельзя добавить видеокарту?

Здесь сразу два непреодолимых барьера:

Физический: Объем корпуса Gigabyte ATOM — около 1 литра. Внутри просто нет места и нет разъема PCIe x16 (в который вставляются десктопные видеокарты).
Энергетический: Ваш блок питания рассчитан всего на 240 Вт. Мощная видеокарта на 20 ГБ (например, уровня AMD Radeon RX 7900 XT) в пике может потреблять более 300 Вт только на саму себя.

Система построена как единый «мозг» от NVIDIA - и добавить туда графический чип (особенно если от прямого конкурента типа AMD) невозможно даже на уровне драйверов — система просто не будет работать с ним в тандеме для ИИ-вычислений.

Что можно обновлять?
В таких системах единственное, что обычно поддается апгрейду — это память для хранения данных (SSD-накопители). И, конечно, вы можете подключать любые внешние устройства через скоростные порты USB-C или сеть.

Гонка за ИИ: распределённые дата-центры

Рихард Зорге возвращается22 ноября 2025

И да, вы всё правильно поняли в самом начале: абсолютное большинство таких моделей как новая Qwen - полностью бесплатны (это называется open-source или открытые веса)!

Крупнейшие корпорации (Meta, Google, Alibaba, Microsoft, Mistral) тратят миллионы долларов на обучение этих нейросетей на суперкомпьютерах, а затем просто выкладывают готовые файлы-веса в открытый доступ для всех желающих. Вот как обстоят дела с их количеством и хранением:

1. Сколько их всего?

Количество доступных моделей исчисляется сотнями тысяч.
Главный мировой сайт-хранилище для нейросетей называется Hugging Face (это своеобразный YouTube или GitHub для искусственного интеллекта). Сейчас там загружено более миллиона различных вариаций моделей.

Почему так много? Потому что любой энтузиаст может взять бесплатную базовую модель (например, от Meta) и дообучить ее дома на медицинских справочниках, японских стихах или правилах программирования, а затем выложить как новую, специализированную версию.

2. Можно ли сохранить себе «все» или «большинство»?

Нет, и пытаться не стоит. Если вы захотите скачать вообще все модели с Hugging Face, вам потребуются дата-центры с петабайтами (тысячами терабайт) памяти. Большая часть из этих сотен тысяч — это просто чьи-то неудачные эксперименты, устаревшие версии прошлых лет или очень узкоспециализированные файлы, которые вам никогда не понадобятся.

3. Скачать: Основные модели

Вам нужно собрать только сливки — самые умные и актуальные флагманы от главных компаний. На сегодняшний день основных семейств моделей, которые реально стоит иметь на ПК, около 10–15 штук.

Если вы захотите скачать их лучшие сжатые версии (размером от 5 до 40 ГБ каждая), чтобы у вас была модель на любой случай жизни (одна для написания кода, другая для творчества, третья для перевода, четвертая без цензуры), то вся эта коллекция займет примерно от 500 ГБ до 1 Терабайта.

Какое железо для этого нужно?

Здесь есть очень важное правило: хранить модели и запускать их — это разные вещи.

Для хранения (Винчестер): Вам просто нужен вместительный SSD-накопитель на 1–2 ТБ. Важно, чтобы это был именно быстрый SSD (NVMe), а не старый жесткий диск (HDD). Если вы положите модель весом 30 ГБ на старый HDD, она будет загружаться в оперативную память по 5–10 минут при каждом запуске. С SSD это происходит за пару секунд.
Для запуска (RAM и GPU): Вам не нужно железо, способное «удержать» всю коллекцию разом! Возвращаясь к нашей аналогии с рестораном: у вас на полке может стоять 50 кулинарных книг (на SSD), но шеф-повар открывает и кладет на стол только одну за раз. Поэтому требования к оперативной и видеопамяти остаются прежними (хватит 32 ГБ RAM и 12–24 ГБ видеопамяти), даже если на вашем диске хранится сто разных нейросетей.

Ваш терабайт нейросетей будет просто лежать на жестком диске как обычные файлы. В память компьютера будет загружаться только та модель, которую вы выберете для диалога в данный момент.

Что такое модели «Без цензуры» (Uncensored)?

Крупные компании всегда настраивают свои нейросети так, чтобы они были безопасными и вежливыми (это называется alignment — выравнивание). Если вы попросите облачный ИИ написать сцену жестокой битвы для книги или рассказать, как создать компьютерный вирус, ИИ откажется, чтобы не нарушать правила безопасности.

ИИ модели дома и БЕЗ ЦЕНЗУРЫ

Рихард Зорге возвращается5 марта

Модели без цензуры — это те же самые открытые нейросети, но доработанные независимыми энтузиастами. Они специальными методами «стирают» из модели эти встроенные отказы.

Зачем это нужно? Чаще всего их используют не для чего-то плохого, а для свободы творчества. Писатели генерируют с их помощью мрачные детективные романы (дарк-фэнтези, триллеры), специалисты по кибербезопасности используют их для написания тестового вредоносного кода (чтобы учиться от него защищаться), а обычные пользователи просто хотят, чтобы ИИ перестал читать им мораль на безобидные шутки.

🏆 Золотая коллекция: Топ-6 моделей для домашнего ПК

Рынок ИИ меняется каждый месяц, но есть несколько главных семейств (брендов), чьи модели стоит иметь в своей коллекции. У каждой из них есть версии разного размера (от маленьких до огромных).

1. Универсальный солдат: Семейство Llama (от Meta)

Почему стоит скачать: Это безоговорочный лидер в мире открытого ИИ. Meta вкладывает миллиарды в их обучение. Они отлично говорят по-русски, обладают огромной базой знаний и подходят вообще для всего: от пересказа текстов до сложных рассуждений.
Что искать: Последние версии Llama 3 (или новее). Версия на 8B параметров — идеальна для быстрых задач, а 70B — настоящий домашний гений (если хватит памяти).

2. Мастер логики и программирования: Qwen (от Alibaba)

Почему стоит скачать: Именно про свежую версию Qwen3.5 в самом начале в статье! Это китайское семейство моделей, которое сейчас рвет многие рейтинги. Они феноменально пишут программный код, решают математические задачи и очень глубоко понимают контекст сложных документов.

3. Творческий европеец: Mistral / Mixtral (от Mistral AI)

Почему стоит скачать: Французский стартап делает удивительные вещи. У них немного другой стиль ответов — более «человечный» и литературный. Они идеально подходят для мозговых штурмов, написания постов, стихов и креатива.

4. Компактный гений: Семейство Gemma (от Google)

Почему стоит скачать: Это «младшие братья» флагманских моделей от Google. Их главная фишка — невероятная эффективность при маленьком размере (например, версии на 9B или 27B параметров). Они выдают ответы уровня огромных моделей, но почти не нагружают компьютер.

5. Малыш-вундеркинд: Phi (от Microsoft)

Почему стоит скачать: Эти модели крошечные (всего 3–4 миллиарда параметров), но Microsoft обучила их на «качественных учебниках». Модель размером всего в пару гигабайт способна решать логические задачи, на которых спотыкались гиганты прошлого года. Идеально для слабых ноутбуков.

6. Представитель «Без цензуры»: Семейство Dolphin (от Eric Hartford)

Почему стоит скачать: Если вы хотите попробовать ИИ без ограничений. Разработчик Эрик Хартфорд берет лучшие модели (например, Llama или Mistral) и снимает с них все фильтры. Версии Dolphin считаются стандартом среди uncensored-моделей: они послушные, умные и сделают ровно то, что вы попросите.

💡 Совет по скачиванию: В программах вроде LM Studio вы будете видеть к названиям этих моделей приписки вроде Q4, Q5 или Q8 — это уровень сжатия. Берите Q4 или Q5 — они весят мало, а разницу в качестве ответов вы даже не заметите.

Компания Anthropic (создатели Claude), как и OpenAI (создатели ChatGPT), придерживается политики «закрытого исходного кода» (closed-source). Они не выкладывают файлы (веса) своих моделей в интернет. Доступ к ним можно получить только через их сайт или по платной подписке.

Именно поэтому статья про Qwen вызвала такой фурор! Заголовок означает следующее: "Alibaba выпустила бесплатную модель Qwen, которую можно скачать на домашний ПК, и она настолько умная, что выдает качество ответов на уровне платного закрытого Claude Sonnet". То есть открытые бесплатные модели наконец-то догнали платных гигантов!

Какие еще есть модели «без цензуры» (помимо Dolphin)?

В сообществе энтузиастов есть несколько популярных направлений:

Abliterated-модели (Хит последних лет): Это не конкретный бренд, а технология. Энтузиасты научились математически вычислять внутри модели «вектор отказа» (ту часть мозга, которая заставляет ИИ говорить: "Я не могу вам в этом помочь"). Они просто «хирургически» удаляют его. Если в поиске вбить слово abliterated (например, Llama-3-8B-abliterated), вы получите гениальную официальную модель от Meta, которая вообще не умеет отказывать.
Семейство Nous Hermes: Создается командой Nous Research. Это великолепные модели, которые славятся своей креативностью и почти полным отсутствием морализаторства. Они отлично пишут книги и не боятся сложных или спорных тем.
RP-модели (RolePlay): Множество моделей создается специально для ролевых игр (например, семейства Kunoichi, Midnight Miqu или SillyTavern-оптимизированные). Они обучены вживаться в любых персонажей (от злодеев из фэнтези до киберпанк-хакеров) и не выходят из роли из-за цензуры.

🚀 Инструкция: Как запустить свой первый ИИ за 3 шага

Мы будем использовать программу LM Studio.

Шаг 1. Установка программы

Зайдите на официальный сайт lmstudio.ai.
Скачайте версию для вашей операционной системы (Windows, Mac или Linux) и установите её как обычную программу.

lmstudio.ai

LM Studio - Local AI on your computer

Она бесплатная, очень красивая и работает по принципу «всё в одном» (как браузер или магазин приложений).

Шаг 2. Скачивание модели

Откройте LM Studio. Прямо на главном экране вы увидите строку поиска (как в Google).
Введите туда, например, Qwen или Llama 3.
Программа выдаст список файлов. Выберите файл, в названии которого есть приписка Instruct (это значит, что модель обучена общаться в формате диалога) и сжатие Q4 или Q5 (например: qwen-14b-instruct-q4_k_m.gguf).
Нажмите кнопку Download (Скачать) рядом с файлом и дождитесь окончания загрузки.

Шаг 3. Запуск и общение!

В левом меню программы нажмите на иконку «Облачка диалога» (Chat).
В самом верху экрана появится выпадающий список Select a model to load. Нажмите на него и выберите вашу только что скачанную модель.
Программа на пару секунд задумается (перенесет модель с жесткого диска в оперативную память).
Всё! Внизу экрана есть строка ввода. Пишите свой запрос на русском или английском и общайтесь со своим личным, полностью независимым искусственным интеллектом. При желании можете даже отключить интернет — всё будет работать!

💡 Маленький лайфхак: Справа в меню чата есть галочка GPU Offload (или Hardware Acceleration). Если она включена на максимум, программа задействует вашу видеокарту, и текст будет генерироваться очень быстро.

Ну что, готовы попробовать установить LM Studio и "суверенную" ИИ-модель себе на домашний комп?