Всё, что нужно: ПК, локальная LLM, 15 минут времени и сама книга. Подробный гайд для тех, кто ещё никогда не пользовался локальными моделями.
1. Кому это подходит
Любому пользователю ПК со средними характеристиками.
Конкретные требования к ПК:
Видеокарта - от 4 ГБ VRAM
ОЗУ - от 16 ГБ
Можно и с меньшими характеристиками по видеокарте, но скорость будет значительно медленнее.
2. Скачиваем и устанавливаем LM Studio
Первым делом скачиваем программу, через которую будем общаться с LLM. Называется она LM Studio — прекрасный продукт как для новичков, так и для профессионалов.
Скачать можно с официального сайта: https://lmstudio.ai/
Жмём синюю кнопку Download for Windows.
После скачивания устанавливаем программу. Это не сложнее, чем установить компьютерную игру — принцип точно такой же.
3. Важное правило про кириллицу
Важно: в пути, по которому устанавливаете программу, не должно быть кириллицы (символов русского алфавита). Так же и в папке, куда будете скачивать модели, не должно быть кириллицы.
LM Studio это не любит. Модели, имеющие машинное зрение, просто не запустятся.
Пример правильного пути установки:
K:\AI\LM Studio
Пример правильного пути для моделей:
K:\AI\LMModels
Пример неправильного пути для моделей:
C:\Users\ПОЛЬЗОВАТЕЛЬ\.lmstudio\models
4. Первые настройки
Вот так выглядит основное окно программы.
Первым делом я рекомендую зайти в настройки (стрелочка на скриншоте), ознакомиться с ними и изучить параметры программы. Это даст вам понимание продукта.
А пока будет достаточно:
- Включить Developer mode;
- Если совсем плохо понимаете английский язык — включить русский в настройках.
Смотрите на скриншоты — легко найдёте нужные пункты меню.
Что меняем:
- Язык - вкладка General → app language;
- Developer mode - вкладка Developer
Мой совет: я не рекомендую менять язык на русский. Лучше посидеть немного с переводчиком и перевести все параметры — это даст вам большее понимание LLM, их принципов работы.
А вот Developer mode я рекомендую включить сразу. Это даст максимальный функционал. Вы с лёгкостью сможете освоить даже самые «сложные» параметры — нужно лишь уделить немного времени на их изучение. Это даст вам огромный опыт, гораздо больший, чем получают большинство пользователей LLM (как локальных, так и облачных).
5. Скачиваем первую модель
Теперь, когда мы установили LM Studio и сделали первые настройки, переходим к скачиванию нашей первой модели и её запуску.
Нажимаем на вкладку Model Search (смотрите скриншот).
Перед нами распахнётся список из десятков моделей. Не пугайтесь — вам не обязательно что-то знать о каждой, чтобы ими пользоваться.
Модель 1: Qwen3.5-4B
Отличный инструмент. Имеет машинное зрение, благодаря этому понимает изображения и PDF — что очень удобно для чтения книг. Хорошо знает русский язык и, несмотря на свой маленький размер, очень умная.
Характеристики:
- Размер в Q4_K_M - 3.38 ГБ;
- Контекст - 256K токенов;
- Машинное зрение - присутствует.
Что даёт контекст 256K? Позволит проанализировать книжку толщиной в несколько сотен страниц.
Как скачать:
- В поле Model Search введите название: Qwen3.5-4B
- Выберите подходящее квантование
- Нажмите кнопку Download
Модели скачиваются очень быстро — буквально за 2–3 минуты. А пока можно заварить чай — ведь дальше ждёт самое интересное.
Модель 2: Nvidia/nemotron-3-nano-4b
Мой личный фаворит. Очень-очень быстрая и оптимизированная модель. Благодаря своей архитектуре Transformer генерирует токены с комфортной скоростью даже на слабеньком железе. А по результатам недавних бенчмарков обладает ещё и шикарными агентными возможностями.
Характеристики:
- Размер в Q8_0 - 4.23 ГБ;
- Размер в Q4_K_M - 2.84 ГБ;
- Контекст - 1 миллион токенов!
- Машинное зрение - отсутствует.
Но есть и небольшая заморочка: в отличие от Qwen3.5 у Nemotron нет машинного зрения. Все PDF-файлы и книги нужно будет переводить в обычный текстовый формат, чтобы модель могла их прочитать.
И русский язык — это не самое сильное место Nemotron, особенно когда модель выходит на агентные задачи.
Зато: обладает фантастическим контекстом в 1 миллион токенов и при этом очень качественно с ним работает. Если ваш ПК сможет запустить её с таким контекстом, вы сможете загрузить в чат всю «Войну и мир», чтобы LLM прочитала и рассказала вам любую её часть или выполнила другую задачу.
Моя рекомендация: я пользуюсь этой моделью в квантовании Q8_0. Вес всего 4.23 ГБ. Если железо не позволит, используйте квантование Q4_K_M — вес модели будет всего 2.84 ГБ. Запустится даже на «калькуляторе».
Если вы не знаете, что такое квантирование, рекомендую прочитать мою отдельную статью. Там за пять минут простыми и понятными терминами я рассказываю о том, что такое Q4_K_M, Q8_0 и с чем их едят.
Читать 👉 https://dzen.ru/a/aeHUcvywjFy782ef
6. Загрузка модели в память
После скачивания модели переходим на вкладку My Models. Выбираем в списке нашу модель и начинаем её настройку на вкладке Load.
Три ключевых параметра и как их настроить:
- Context Length, размер контекстного окна, память модели - чем больше значение, тем больше модель будет помнить. Для небольшой книги хватит 131072 (128K). На слабых машинах берите не более 32K и читайте книгу по частям;
- GPU Offload, определяет сколько слоёв выгрузить на видеокарту - чем больше слоёв, тем быстрее модель, но тем больше потребуется видеопамяти. Новичкам я рекомендую не трогать — LM Studio сама подберёт нужное значение под ваше железо;
- Flash Attention, ускорение модели - держите всегда включённым. Это ускоряет генерацию токенов. Поддерживается не каждой моделью.
Я собираюсь анализировать большую книгу, поэтому выставляю контекст 400K. Модель Nemotron в квантировании Q8_0 позволяет использовать такой контекст.
Выставив параметры в окне Load, нажимаем на кнопку Load Model. Появится промежуточное окно — там тоже нажимаем на синюю кнопку Load Model.
LLM начнёт загружаться в память видеокарты или в ОЗУ. А мы переходим на вкладку Chat.
7. Добавляем книгу и анализируем
На вкладке Chat нажимаем на кнопку New Chat и выбираем нашу загруженную модель. Если модель загрузилась в память, она отобразится первой в списке (смотрите верхнее раскрывающееся меню моделей на вкладке Chat).
Вот и всё! Мы можем общаться с ИИ и анализировать тексты, таблицы и другие данные.
Есть два варианта добавить книгу в чат:
- Через кнопку + в окне чата
- Скопировать текст книги прямо в чат (копировать текст полностью)
Я для более высокой точности ответа копирую все страницы текста в чат и прошу сделать анализ работы и оценить её.
Книга, которую я загрузил, написана очень мелким шрифтом — 12 кегль. Поэтому и потребовался такой большой контекст. Только первое сообщение заняло 90% контекстного окна.
8. Итог
Вот так, используя простой инструмент, базовые функции которого можно освоить за 20 минут (пока пьёшь чай с конфетками), можно:
- Увеличить скорость анализа данных;
- Получить опыт работы с ИИ;
- Не читать книги самостоятельно — их прочитает нейросеть.
На этом моя статья заканчивается. Но не возможности ИИ, о которых мы ещё множество раз поговорим.
9. Что дальше
В следующих статьях я расскажу подробно:
- о параметрах моделей в LM Studio;
- какие модели для чего лучше выбирать и их ключевые отличия;
- многое другое из мира ИИ-технологий.
10. Подписывайтесь!
Если хотите следить за экспериментами «Локального мозга» или увидеть ответ ЛЛМ по анализу книги — залетайте:
👉 ВК: https://vk.com/local_mozg
👉 Дзен: https://dzen.ru/lokal_mozg