Найти в Дзене
Андроид Квеныч

LLM как подобрать бесплатный локальный ИИ для компьютера или ноутбука

Привет, друзья! С вами снова Квеныч. В одной из прошлых публикаций я рассказывал вам как установить на свой ПК локальную модель и запустить через Koboldcpp. https://dzen.ru/a/aMKaDO5IhjdNY8v3 В той статье мы рассматривали установку и запуск на примере двух маленьких быстрых моделей. Сегодня мы пойдем значительно дальше. Я объясню более подробно, как работают модели, и какие еще более умные модели вы можете добавить в свою коллекцию.
Представьте себе очень умного цифрового помощника. Вот эти самые большие языковые модели (LLM — Large Language Models) и есть его «мозги». Всё, чем он умеет отвечать, — это результат обучения на огромных массивах текстов: книгах, статьях, кодексах законов и даже диалогах. А теперь, что такое — параметры?
Не пугайтесь! Это просто «извилины» или «опыт» нашего цифрового мозга.
Чем их больше, тем модель умнее и эрудированнее. Но есть и обратная
сторона: тем она «тяжелее», требовательнее к железу и занимает больше
места на диске.
👉 Если вы видите в назв
Оглавление

Привет, друзья! С вами снова Квеныч. В одной из прошлых публикаций я рассказывал вам как установить на свой ПК локальную модель и запустить через Koboldcpp. https://dzen.ru/a/aMKaDO5IhjdNY8v3 В той статье мы рассматривали установку и запуск на примере двух маленьких быстрых моделей. Сегодня мы пойдем значительно дальше. Я объясню более подробно, как работают модели, и какие еще более умные модели вы можете добавить в свою коллекцию.


«Мозги» ИИ — что это такое?

Представьте себе очень умного цифрового помощника. Вот эти самые большие языковые модели (LLM — Large Language Models) и есть его «мозги». Всё, чем он умеет отвечать, — это результат обучения на огромных массивах текстов: книгах, статьях, кодексах законов и даже диалогах.

А теперь, что такое — параметры?
Не пугайтесь! Это просто «извилины» или «опыт» нашего цифрового мозга.
Чем их больше, тем модель умнее и эрудированнее. Но есть и обратная
сторона: тем она «тяжелее», требовательнее к железу и занимает больше
места на диске.
👉 Если вы видите в названии модели латинскую букву B
(например, Qwen3-8B), это означает, что эта модель обучена на 8
миллиардах параметров (английское слово billion = русское слово миллиард).

Волшебство сжатия: как уместить интеллект в домашний ПК

Модель с 70 миллиардами параметров — это как двигатель от грузовика - фуры: мощно, но в корпус обычной легковушки не поставить. Для домашнего использования такие «монстры» не подходят.

К счастью, есть волшебная технология — квантование.
Грубо говоря, это как сжать огромное фото в формате RAW до удобного
JPG. Качество почти не страдает, а размер уменьшается в разы! Именно
благодаря квантованию мы можем пользоваться мощными моделями на обычных компьютерах.

Сжатые модели часто хранят в специальном формате — GGUF.
Это просто удобная «упаковка», которая позволяет программе-оболочке
(той самой, что запускает модель) быстро и эффективно с ней работать.

Выбираем модель под свое железо:

Определите, сколько у вас оперативной памяти (ОЗУ), и выбирайте категорию.
Список не исчерпывающий, ниже отражены мои субъективные рекомендации. На самом деле моделей и их производителей намного больше, но в этом блоге я делюсь исключительно своим личным опытом. Лично я искал и качал модели с домена
https://huggingface.co/
Вы можете найти свои собственные источники, или воспользоваться моей рекомендацией.

Категория 1: Для слабых ноутбуков и офисных ПК (8 ГБ ОЗУ)

  • Размер моделей: до 7 миллиардов параметров.
  • Что ожидать:
    Модель будет думать не быстро, но справится с простыми задачами:
    ответит на вопрос, поможет написать письмо, составит простой список.
  • Что качать:
    Cotype-Nano:
    Наша, российская разработка. Очень маленькая, но отлично понимает и генерирует русскую речь. Идеальна для старта.
    Qwen3 - 1.7B:
    Очень маленькие, но шустрые модели от китайских разработчиков из
    Alibaba. Отлично работают на самом старом железе и неплохо понимают
    русский.
    TinyLlama 1.1B: Компактная и популярная модель для базовых задач. Русский понимает, но выводит ответ чаще на английском.

Категория 2: Для геймерских ПК и рабочих станций (16-32 ГБ ОЗУ, есть видеокарта от 8 ГБ)

  • Размер моделей: 7B — 20B параметров.
  • Что ожидать:
    Это уже полноценный умный помощник! Будет писать сложные тексты, давать
    развернутые консультации, помогать с кодом. Работает уверенно и быстро.
  • Что качать:
    SambaLingo-Russian-Chat 7B:
    Моя главная рекомендация для общения на русском! (осторожно, там 5 гигабайт. Рекомендую использовать канал с безлимитным трафиком)
    Модель от компании SambaNova Systems, специально дообученная на
    огромном массиве русскоязычных текстов. Идеально понимает контекст и
    стилистику русского языка. Отлично подходит для диалога,
    генерации текстов и ответов на сложные вопросы.

    Qwen3-8B / 14B: Очень сильные и сбалансированные модели от Alibaba. Показывают отличное понимание русского и высокий интеллект.
    Mistral 7B: Популярная и эффективная модель от французской компании Mistral AI.
    Llama-3 8B: Мощная и популярная американская модель.

Категория 3: Для энтузиастов с мощным железом (32+ ГБ ОЗУ, топовая видеокарта)

  • Размер моделей: 20B+ параметров.
  • Что ожидать:
    Максимальное качество ответов, близкое к облачным гигантам. Но
    готовьтесь: файлы весят десятки гигабайт, а загрузка займет время.
  • Что качать:
    Qwen3-32B / 72B:
    Флагманские модели от Alibaba. Одни из лидеров по интеллекту среди открытых моделей.
    Llama 3 (70B): Очень мощная модель американская модель.

    Бонус для любителей экспериментов:

Среди моих рекомендаций много относительно небольших моделей (7B-14B параметров), которые показывают отличные результаты, не смотря на свой скромный размер. Во многом это заслуга передовой технологии — дистилляции знаний (Knowledge Distillation).

Что это такое в двух словах:
Это процесс, когда огромная, «учительская» модель (например, с 70B
параметров) передает свои знания и логику маленькой, «ученической».
Представьте, что опытный профессор учит талантливого студента — тот
усваивает самую суть, но не заучивает все многотомные материалы
дословно.

В результате мы получаем компактную модель, которая:

  • Работает быстро даже на обычном железе.
  • Занимает мало места на диске.
  • Сохраняет высокое качество ответов своей большой «наставницы».

Что я могу посоветовать из подобных моделей?
Попробуйте потестировать модели, дообученные на базе DeepSeek-R1
— это одна из сильнейших открытых «учительских» моделей. Многие
энтузиасты и компании используют её для создания узкоспециализированных
или оптимизированных моделей-«учеников». Их легко найти на платформах
вроде Hugging Face по запросам, включающим в себя deepseek-r1 или distill

Это отличный способ получить максимум интеллекта при минимуме требований к вашему компьютеру. Мой личный фаворит из этой категории DeepSeek-R1-0528-Qwen3-8B Вы можете скачать его с huggingface у знаменитого квантора Bartowski по этой ссылке (осторожно, там 5 гигабайт. Рекомендую использовать канал с безлимитным трафиком)

А что теперь? Эээээксперименты:

Посмотрите, сколько у вас оперативной памяти ( Win + Ctrl + Del → Диспетчер задач → Производительность → Память ) и выберите модель из подходящей категории. Как запустить её локально на своем компьютере или ноутбуке, я писал в одной из предыдущих статей https://dzen.ru/a/aMKaDO5IhjdNY8v3

Если возникнут затруднения, пишите в комментариях: Модель из какой категории вам подошла? Получилось ли разобраться?

Не забудьте подписаться на меня и поставить лайк статье. Впереди еще очень много интересного.