Всем привет! С вами опять Квеныч.
Помните, как в одной из прошлых моих статей мы с вами запустили на домашнем ПК свою собственную ИИ-рисовалку? Сегодня мы пойдем еще дальше. Мы соберем не просто инструмент, а настоящего универсального помощника, который не только генерирует текст и картинки, но и видит загруженные вами изображения, понимает ваши голосовые команды и отвечает вам человеческим голосом. И всё это — по-прежнему на старом добром KoboldCpp.
Коболд рисует: Превращаем текстовые фантазии в визуальные образы
Как вы помните из моей прошлой статьи, KoboldCpp умеет не только
генерировать текст, но и создавать изображения с помощью встроенного
движка Stable Diffusion. Это не просто отдельная функция — это
полноценная интеграция с диффузионной моделью, позволяющая обсуждать и дорабатывать картинки прямо в окне диалога.
Для активации этой возможности нам потребуется диффузионная модель. Я, как и ранее, рекомендую проверенный вариант — Deliberate_v2.safetensors,
который отлично справляется с генерацией в различных стилях. Подробную
инструкцию по настройке и все тонкости работы с рисовалкой я разбирал в
отдельной статье, но сегодня мы немного повторимся для целостности картины
Ключевые параметры для работы модуля генерации:
→ --sdmodel Deliberate_v2.safetensors — указываем путь к модели рисования
→ --sdvaeauto — автоматическая подгрузка VAE для улучшения цветов и детализации
→ --sdtiledvae 512 и --sdclamped 1024 — оптимизации памяти для стабильной работы
→ --sdquant 2 — дополнительная оптимизация под видеокарты с малым объемом VRAM
После запуска сборки с этими параметрами вы сможете не только попросить
модель нарисовать что-либо командой «Draw...», но и обсудить с ней
получившийся результат, попросить внести правки или даже сгенерировать
альтернативные варианты — всё в рамках одного интерфейса.
‼️
Секретный лайфхак: Если не хотите составлять промпты на английском,
просто попросите вашу языковую модель сделать это за вас — она прекрасно
справляется с ролью переводчика-консультанта.
Коболд видит: Подключаем «зрение» к языковой модели
Для этого нам потребуется два специальных файла. Первый — это сама языковая модель. Я выбрал Toppy-M-7B — это умная и отзывчивая модель на базе Mistral 7B, которая отлично понимает и генерирует русский текст. Второй файл — это проекционный слой (mmproj), который выступает в роли «переводчика» между зрительной и языковой частями модели. Без него ИИ будет слепым.
Я использую проверенную связку:
→ Модель: `toppy-m-7b.Q4_K_M.gguf`(осторожно 4.37ГБ)
→ Проекционный слой: `mistral-7b-mmproj-v1.5-Q4_1.gguf` (его можно найти в сообществе KoboldCpp)
После того как вы загрузили в чат картинку (например, нарисованную встроенной Stable Diffusion или просто любую фотографию), чтобы модель её «увидела», нужно сделать один важный шаг. Кликните на изображение, в открывшемся окне вместо пункта «multimodal vision» выберите «interrogate (Local)» и дождитесь, когда статус напротив «AI Vision» сменится на «Active». Теперь можно закрыть окно и спросить модель о том, что на картинке — она даст вам детальное описание.
Коболд говорит: Озвучка ответов русским голосом
По умолчанию KoboldCpp может использовать системный синтезатор речи (TTS) встроенный в Windows, но зачастую он предлагает только английские голоса. Решение простое и элегантное — мы установим качественные русские голоса от проекта RHVoice.
Заходим на сайт проекта, скачиваем понравившийся голос в виде исполняемого `.exe`-файла (я лично выбрал `RHVoice-voice-Russian-Aleksandr`) и запускаем установщик. Голос автоматически добавится в систему.
После этого в настройках KoboldCpp (Settings -> вкладка Media) в разделе Text to Speech выбираем опцию «Browser Inbuilt TTS» и в выпадающем списке находим только что установленный русский голос. Всё! Теперь каждое сообщение ИИ можно будет не только прочитать, но и прослушать.
Коболд слушает: Принимаем команды через микрофон
Для распознавания речи мы будем использовать фантастически эффективную модель Whisper. Качаем её многоязычную версию, например, `ggml-base-q5_1.bin`, и указываем путь к ней в параметрах запуска.
Далее, в тех же настройках (Settings -> вкладка Media) активируем голосовой ввод, переведя переключатель «Voice Input» в положение «Toggle-to-talk». Для лучшего результата я также рекомендую поставить галочку «Suppress Non-Speech» и вручную вписать язык «Russian» в соответствующем поле. Теперь вы можете нажать кнопку и просто сказать свой запрос — он мгновенно преобразуется в текст.
Квеныч рекомендует: Рецепт сборки готового агента
Вот та самая командная строка, которая запускает на моем ПК с 12 ГБ ОЗУ и видеокартой 8 ГБ полноценного мультимодального агента. Просто создайте `.bat`-файл со следующим содержимым:
`koboldcpp-nocuda --model "toppy-m-7b.Q4_K_M.gguf" --mmproj "mistral-7b-mmproj-v1.5-Q4_1.gguf" --visionmaxres 1024 --noavx2 --gpulayers 15 --blasbatchsize 1024 --contextsize 1024 --websearch --usevulkan --port 5001 --sdmodel Deliberate_v2.safetensors --sdvaeauto --sdtiledvae 512 --sdclamped 1024 --sdquant 2 --whispermodel "ggml-base-q5_1.bin"`
‼️ Важное замечание: параметр `--gpulayers 15` подобран для моего железа. Если у вас меньше видеопамяти, начните с меньшего значения, например, 10, чтобы избежать ошибок.
Заключение: Ваш личный электронный друг на домашнем ПК
Вот и всё. Теперь у вас дома работает не просто программа, а настоящий электронный помощник. Он понимает текст и картинки, рисует, слушает и говорит. И всё это — без ежемесячных платных подписок, без мониторинга ваших личных данных корпорациями и с полным контролем над приватностью.
Пишите в комментариях, получилось ли у вас повторить эту сборку? Какие модули оказались самыми полезными? Делитесь своими успехами и задавайте вопросы — с радостью помогу разобраться!
Если этот гайд был вам полезен, поставьте лайк и подпишитесь на мой блог — впереди нас ждет еще много интересных открытий в мире локального искусственного интеллекта.