В этой статье я расскажу как развернуть чат-бота локально и использовать без доступа к интернету или взаимодействовать с развернутым чат-ботом на вашем сервере по API.
Что такое LM Studio
LM studio - это инструмент, позволяющий запускать языковые модели на вашем компьютере. С языковыми моделями можно работать в виде встроенного чата, а так же через развернутый сервер по API.
Как установить LM Studio
Для установки перейдите на официальный сайт приложения
На главной странице можно выбрать подходящую версию LM Studio для вашей операционной системы. Процесс установки стандартный, на нем подробно останавливаться не будем.
Как пользоваться LM Studio
После установки и запуска приложения вас встретит главная страница с последними новостями и предложениями скачать LLM модели.
LLM (англ.large language model) - большая языковая модель
Установка языковой модели
На следующей вкладке вы можете скачать языковую модель выполнив поиск и нажав на кнопку "Download" у выбранной модели.
Как выбрать языковую модель
По умолчанию вам будут предложены только те модели, которые смогут запуститься на вашем устройстве. Для этого наложен фильтр "Сompatibility guess". Если вы хотите посмотреть все модели, то переключите фильтр на "Show All". Модели подбираются в зависимости от объема видеопамяти вашего устройства. На компьютерах под управлением MacOS и с процессорами семейства M используется объединенная память. То есть оперативная память является так же и видеопамятью. На моем Apple MacBook Pro Apple M3 Pro 18GB объединенной памяти, поэтому мне доступны модели, которые смогут загрузиться и работать с таким объемом памяти.
Языковые модели обучаются на массиве данных, которые состоят их текстов на нескольких иностранных языках (в основном на английском), а так же на программном коде. Чем больше доля того или иного языка. тем лучше модель будет понимать и отвечать на этом языке. Для взаимодействием с моделью на русском языке я рекомендую использовать модели Сайга от Ильи Гусева (IlyaGusev/saiga), поскольку эти модели дообучены на русском языке.
Так же стоит учитывать квантирование модели. Уровень квантирования отражен в виде тега на карточке модели (Q2, Q4, Q8 или FULL PRECISION).
Если очень грубо объяснять это уровень сжатия(упрощения) модели. То есть модель с квантированием Q2 имеет небольшой вес, быстрее работает и менее требовательна к памяти, но менее точная (будет путать окончания слов, и плохо не понимать что вы у нее спрашиваете). А модель с квантированием Q8 больше весит, медленнее работает и более точная. Модель FULL PRECISION без сжатия - наиболее точная, но медленная и тяжелая.
Чат с языковой моделью
Что бы начать чат с языковой моделью в верхней части экрана выберете загруженную ранее модель. После загрузки модели в память вашего устройства с ней можно начать беседу.
В левой части будет список ваших чатов. В правой части список настроек. На настройках подробно останавливаться не будем, поскольку для стандартного использования хватает настроек по умолчанию. Если необходим разбор настроек в отдельной статье - пишите в комментариях.
На этом этапе у нас все готово для общения с моделью. Локальная модель не сравнится с моделями GPT от OpenAI или Gemini от Google поскольку они гораздо больше чем те, что можно запустить локально на обычном компьютере.
Как пользоваться ChatGPT в Росиии можно узнать из моей статьи
Запуск сервера для взаимодействия через API
На вкладке сервера вы может в один клик по кнопке "Start Server" запустить свой сервер и посмотреть параметры подключения вашего приложения по API к серверу для взаимодействия с моделью.
В окне лога будет отображаться информация о взаимодействии с вашим сервером по API.
Управление загруженными моделями
На последней вкладке можно ознакомиться со списком загруженных моделей и удалить лишние.
Вы дочитали статью до конца? Вы прекрасны!
😇 Если вам интересна тема нейросетей, то подписывайтесь на мой канал telegram.