Найти в Дзене

Установка текстовой нейросети "llama3.1" (3.2) на локальный компьютер

Оглавление

В этой статье я подробно разберу, как установить текстовую нейросеть "llama3.1" (3.2) на локальный компьютер, и начать пользоваться ей без использования интернета.

Требуемый софт

Нам потребуется два дистрибутива:

Их надо предварительно скачать.

Скачивание и установка "llama3.1"

Открываем сайт: https://ollama.com

Жмем "Download":

-2

Вводим свою почту и выбираем систему (я ставлю на Windows 10):

-3

После скачивания запускаем "OllamaSetup.exe".

Он ничего не спрашивает, просто устанавливается сам!

После установки откройте окно терминала и введите ключевую команду

  • ollama
-4

Оllama должна ответить вам окном справки.

Идем на сайте по адресу: https://ollama.com/library и выбираем вот эту модель:

-5

В открывшемся окне нам требуется строка установки модели (обведена зеленым) и кнопка копирования команды (зеленая стрелка).

Красными стрелками показаны ссылки на модели, которые имеются в наличии, но они все с другими параметрами, и выбираются в зависимости от мощности вашей компьютерной системы, где "8B" - модель на 4.7 гигабайта.

Есть модели на 40 гигабайт и на 229 гигабайт, вы можете себе поставить и их, лишь бы машина потянула (я же не знаю, вдруг у вас на кухне под столом стоит сервер на 245 процессоров с ядрами cuda и памяти "как у дурака махорки").
-6

Копируем команду ("ollama run llama3.1:8b") и вставляем ее в окно терминала:

Начнется скачивание выбранной модели и будет отображаться состояние ее скачивания:

-7

Поскольку я включил в строку команды команду "run", то сразу по скачиванию и установки модели, "llama" запустится.

Пока скачивается модель, установим "Docker Desktop"

Запустим "Docker Desktop Installer.exe"

Оставим все "по умолчанию", он сам с собой разберется.:

-8

После установки запускам его, подтверждаем условия:

-9

Регистрируемся (я рекомендую через гугл-аккаунт, вопросов меньше):

-10

На вопрос "Хто ты, челядь?" отвечаю всегда "Студент!" по причине того, что многие компании смотрят на эту категорию как на "Давайте ему еще на хлебушек пожертвуем?", и снимают все вопросы, касающиеся денег, поскольку "по умолчанию" считают, что "Студент — он бедный, и его, кроме как денег с него не брать, еще и покормить надо!".

-11

Откроется окно Докера, и мы оставим его в покое, ибо у нас там ничего пока нет.

-12

Собственно Доке нам нужен только для того, чтобы поставить "OpenWebUI", дабы не сидеть все время в командной строке терминала.

Но, оставим пока Докера в покое, ибо у нас скоро закачается модель (связь медленная сегодня, я далеко от города сейчас):

-13
-14
-15

Вот теперь все закачалось, поскольку у нас была команда "run" включена, сервис сразу запустился и ждет ввода команды:

-16

Ну вот, собственно говоря — все работает.

Если больше ничего не надо, общайтесь прямо так.

Другие способы установки мы рассмотрим позже, пока минимум — режим терминала.

-17

Вот так мы из него "выходим" (красным), а вот так заново входим (зеленым):

  • ollama run llama3.1
  • /bye
-18

Установка OpenWebUI

Собственно, если вы будете работать в режиме командной строки, то вам не нужны ни "Docker", ни "OpenWebUI", продолжайте работать просто в терминале. Но работать в окне OpenWebUI намного проще и комфортнее, поэтому продолжим.

Открываем адрес: https://docs.openwebui.com , листаем экран до места описания команд конфигурации:

  • я буду запускать "локально"
  • хочу NVIDIA GPU конфигурацию, чтобы система работала на видеопамяти и на cuda-ядрах видео-процессора.

Копируем соответствующею команду.

-19
При наведении мыши появится кнопка "Копировать"
При наведении мыши появится кнопка "Копировать"

Теперь запустим "Docker" и откроем в нем терминал:

-21

Я "скормил" ему вот эту (nvidia gpu cuda):

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

Ссылка на команду (

docker_openwebui_nvidia_cuda_llama

)

-22

Ждем пока он качает и устанавливает:

-23

После того как установка закончится, у вас в "Docker"появится строка с установленным приложением. Запуск интерфейса проводится щелчком по ссылке, куда указывает красная стрелочка:

-24

Если локальный интерфейс запускается первый раз, то прежде, чем войти в него, надо в нем зарегистрироваться:

-25

Заполните поля формы, после чего войдите через окно входа в систему.

Эта регистрация является ЛОКАЛЬНОЙ и хранится в локальном репозитории OpenWebUI.

-26

После входы выберите модель (она уже будет в списке моделей), и можете теперь общаться с моделью через свой, ЛОКАЛЬНЫЙ интерфейс. Теперь можно не заботиться об отключении интернета, об оплате за доступ к удаленному сервису, и т.п.

-27

И получаем ответ уже в WEB-интерфейсе, а не в режиме терминала.

WEB-интерфейс
WEB-интерфейс

Кроме того, через WEB-интеряейс удобнее переключаться между моделями (если их несколько), и настраивать систему через встроенное меню:

-29

Кстати, если вы помните, то в "Olamma" можно устанавливать любую модель из списка, приведенного в разделе "Models", а не только нашу "llama3.1"

-30

Там есть уже и "llama3.2" но пока только малые модели:

Какую модель вы дополнительно установите — ваше личное, американское дело.

-31

График нагрузки при работе "llama1.3"

-32

Цифры на графике:

1. момент выполнения текстовых запросов

2. запуск процесса через "Docker"

3. закрытие "Docker" и "ollama"

Как видно из графика, процесс работает именно в видеопамяти (!), а не в оперативной.

Таким образом можно организовать сервер в локальной сети, подобрав подходящую по конфигурации "железяку", к которому остальные пользователи локальной сети смогут обращаться по его адресу, если "пробросить порты" на сетевую карту, смотрящую в сеть и открыть там нужный порт для всех.

Далее "Установка того же самого через LM Studio" (

)

На главную:

NStor - записки нейро-айтишника | Дзен

Удачи!
NStor
https://t.me/stable_cascade_rus
https://t.me/srigert