Найти в Дзене
Андроид Квеныч

Бесплатный домашний ИИ который видит, слышит, говорит и рисует: Настраиваем мультимодального агента на старом ПК на базе KoboldCpp

Всем привет! С вами опять Квеныч. Помните, как в одной из прошлых моих статей мы с вами запустили на домашнем ПК свою собственную ИИ-рисовалку? Сегодня мы пойдем еще дальше. Мы соберем не просто инструмент, а настоящего универсального помощника, который не только генерирует текст и картинки, но и видит загруженные вами изображения, понимает ваши голосовые команды и отвечает вам человеческим голосом. И всё это — по-прежнему на старом добром KoboldCpp. Как вы помните из моей прошлой статьи, KoboldCpp умеет не только
генерировать текст, но и создавать изображения с помощью встроенного
движка Stable Diffusion. Это не просто отдельная функция — это
полноценная интеграция с диффузионной моделью, позволяющая обсуждать и дорабатывать картинки прямо в окне диалога. Для активации этой возможности нам потребуется диффузионная модель. Я, как и ранее, рекомендую проверенный вариант — Deliberate_v2.safetensors,
который отлично справляется с генерацией в различных стилях. Подробную
инструкцию по
Оглавление

Всем привет! С вами опять Квеныч.

Помните, как в одной из прошлых моих статей мы с вами запустили на домашнем ПК свою собственную ИИ-рисовалку? Сегодня мы пойдем еще дальше. Мы соберем не просто инструмент, а настоящего универсального помощника, который не только генерирует текст и картинки, но и видит загруженные вами изображения, понимает ваши голосовые команды и отвечает вам человеческим голосом. И всё это — по-прежнему на старом добром KoboldCpp.

-2

Коболд рисует: Превращаем текстовые фантазии в визуальные образы

Как вы помните из моей прошлой статьи, KoboldCpp умеет не только
генерировать текст, но и создавать изображения с помощью встроенного
движка Stable Diffusion. Это не просто отдельная функция — это
полноценная интеграция с диффузионной моделью, позволяющая обсуждать и дорабатывать картинки прямо в окне диалога.

Для активации этой возможности нам потребуется диффузионная модель. Я, как и ранее, рекомендую проверенный вариант — Deliberate_v2.safetensors,
который отлично справляется с генерацией в различных стилях. Подробную
инструкцию по настройке и все тонкости работы с рисовалкой
я разбирал в отдельной статье, но сегодня мы немного повторимся для целостности картины

Ключевые параметры для работы модуля генерации:
→ --sdmodel Deliberate_v2.safetensors — указываем путь к модели рисования
→ --sdvaeauto — автоматическая подгрузка VAE для улучшения цветов и детализации
→ --sdtiledvae 512 и --sdclamped 1024 — оптимизации памяти для стабильной работы
→ --sdquant 2 — дополнительная оптимизация под видеокарты с малым объемом VRAM

После запуска сборки с этими параметрами вы сможете не только попросить
модель нарисовать что-либо командой «Draw...», но и обсудить с ней
получившийся результат, попросить внести правки или даже сгенерировать
альтернативные варианты — всё в рамках одного интерфейса.

‼️
Секретный лайфхак: Если не хотите составлять промпты на английском,
просто попросите вашу языковую модель сделать это за вас — она прекрасно
справляется с ролью переводчика-консультанта.

-3

Коболд видит: Подключаем «зрение» к языковой модели

Для этого нам потребуется два специальных файла. Первый — это сама языковая модель. Я выбрал Toppy-M-7B — это умная и отзывчивая модель на базе Mistral 7B, которая отлично понимает и генерирует русский текст. Второй файл — это проекционный слой (mmproj), который выступает в роли «переводчика» между зрительной и языковой частями модели. Без него ИИ будет слепым.

Я использую проверенную связку:

→ Модель: `toppy-m-7b.Q4_K_M.gguf`(осторожно 4.37ГБ)

→ Проекционный слой: `mistral-7b-mmproj-v1.5-Q4_1.gguf` (его можно найти в сообществе KoboldCpp)

После того как вы загрузили в чат картинку (например, нарисованную встроенной Stable Diffusion или просто любую фотографию), чтобы модель её «увидела», нужно сделать один важный шаг. Кликните на изображение, в открывшемся окне вместо пункта «multimodal vision» выберите «interrogate (Local)» и дождитесь, когда статус напротив «AI Vision» сменится на «Active». Теперь можно закрыть окно и спросить модель о том, что на картинке — она даст вам детальное описание.

-4

Коболд говорит: Озвучка ответов русским голосом

По умолчанию KoboldCpp может использовать системный синтезатор речи (TTS) встроенный в Windows, но зачастую он предлагает только английские голоса. Решение простое и элегантное — мы установим качественные русские голоса от проекта RHVoice.

Заходим на сайт проекта, скачиваем понравившийся голос в виде исполняемого `.exe`-файла (я лично выбрал `RHVoice-voice-Russian-Aleksandr`) и запускаем установщик. Голос автоматически добавится в систему.

После этого в настройках KoboldCpp (Settings -> вкладка Media) в разделе Text to Speech выбираем опцию «Browser Inbuilt TTS» и в выпадающем списке находим только что установленный русский голос. Всё! Теперь каждое сообщение ИИ можно будет не только прочитать, но и прослушать.

-5

Коболд слушает: Принимаем команды через микрофон

Для распознавания речи мы будем использовать фантастически эффективную модель Whisper. Качаем её многоязычную версию, например, `ggml-base-q5_1.bin`, и указываем путь к ней в параметрах запуска.

Далее, в тех же настройках (Settings -> вкладка Media) активируем голосовой ввод, переведя переключатель «Voice Input» в положение «Toggle-to-talk». Для лучшего результата я также рекомендую поставить галочку «Suppress Non-Speech» и вручную вписать язык «Russian» в соответствующем поле. Теперь вы можете нажать кнопку и просто сказать свой запрос — он мгновенно преобразуется в текст.

-6

Квеныч рекомендует: Рецепт сборки готового агента

Вот та самая командная строка, которая запускает на моем ПК с 12 ГБ ОЗУ и видеокартой 8 ГБ полноценного мультимодального агента. Просто создайте `.bat`-файл со следующим содержимым:

`koboldcpp-nocuda --model "toppy-m-7b.Q4_K_M.gguf" --mmproj "mistral-7b-mmproj-v1.5-Q4_1.gguf" --visionmaxres 1024 --noavx2 --gpulayers 15 --blasbatchsize 1024 --contextsize 1024 --websearch --usevulkan --port 5001 --sdmodel Deliberate_v2.safetensors --sdvaeauto --sdtiledvae 512 --sdclamped 1024 --sdquant 2 --whispermodel "ggml-base-q5_1.bin"`

‼️ Важное замечание: параметр `--gpulayers 15` подобран для моего железа. Если у вас меньше видеопамяти, начните с меньшего значения, например, 10, чтобы избежать ошибок.

Заключение: Ваш личный электронный друг на домашнем ПК

Вот и всё. Теперь у вас дома работает не просто программа, а настоящий электронный помощник. Он понимает текст и картинки, рисует, слушает и говорит. И всё это — без ежемесячных платных подписок, без мониторинга ваших личных данных корпорациями и с полным контролем над приватностью.

Пишите в комментариях, получилось ли у вас повторить эту сборку? Какие модули оказались самыми полезными? Делитесь своими успехами и задавайте вопросы — с радостью помогу разобраться!

Если этот гайд был вам полезен, поставьте лайк и подпишитесь на мой блог — впереди нас ждет еще много интересных открытий в мире локального искусственного интеллекта.