Добавить в корзинуПозвонить
Найти в Дзене
OVERCLOCKERS.RU

Как я заставил Qwen 3B и Phi-4 работать в каскадной связке на домашнем ПК

Пока крупные корпорации наперебой продают подписки на свои облачные API, пугая пользователей цензурой и утечками данных, в наших домах простаивает железо. Железо, способное крутить современные нейросети абсолютно бесплатно, конфиденциально и автономно. В этой статье я поделюсь живым опытом создания кроссплатформенного медиа-хаба «Юнит» (Android, Windows, Web). За всю логику здесь отвечают две разные локальные модели, работающие в бесшовной каскадной связке через Ollama и Node.js. Серверный хардкор: только не падайте со стула Когда заходит речь о локальных ИИ-агентах, в голове обывателя сразу рисуется ферма из трех-четырех видеокарт RTX 4090, подключенных к ядерному реактору. Но прелесть современных легковесных моделей в том, что их можно запустить на технике, которую большинство сисадминов со слезами на глазах списали бы на утилизацию еще лет десять назад. Производственный конвейер разделен на две «мощные» машины Сервер ИИ (Ubuntu): В роли серверной платформы выступает легендарный вете

Пока крупные корпорации наперебой продают подписки на свои облачные API, пугая пользователей цензурой и утечками данных, в наших домах простаивает железо. Железо, способное крутить современные нейросети абсолютно бесплатно, конфиденциально и автономно.

В этой статье я поделюсь живым опытом создания кроссплатформенного медиа-хаба «Юнит» (Android, Windows, Web). За всю логику здесь отвечают две разные локальные модели, работающие в бесшовной каскадной связке через Ollama и Node.js.

Серверный хардкор: только не падайте со стула

Когда заходит речь о локальных ИИ-агентах, в голове обывателя сразу рисуется ферма из трех-четырех видеокарт RTX 4090, подключенных к ядерному реактору. Но прелесть современных легковесных моделей в том, что их можно запустить на технике, которую большинство сисадминов со слезами на глазах списали бы на утилизацию еще лет десять назад.

Производственный конвейер разделен на две «мощные» машины

Сервер ИИ (Ubuntu): В роли серверной платформы выступает легендарный ветеран — ноутбук Toshiba Qosmio. Мало того, что он помнит времена, когда доллар был по тридцать, так еще и его видеокарта GeForce GTX 560M — глубоко проблемная, с частично сгоревшей видеопамятью! Тем не менее, под управлением чистой Ubuntu и Ollama этот «раненый боец» стал отличным ИИ-движком для оптимизированных квантованных моделей, выдавая мгновенный отклик.

Рабочая станция разработчика (Windows): Для написания кода, компиляции кроссплатформенного ядра и запуска Android-эмуляторов используется скромный ноутбук Acer Aspire 3 (A315-42G) на базе мобильного процессора AMD Ryzen.

Трафик между ними ходит по домашней сети напрямую через роутер с белым статическим IP. При сборке мобильного клиента под Android, эмулятор смартфона на Acer Aspire стучится на сервер Toshiba через специальный шлюз 10.0.2.2, успешно пробивая нативный бэк на Node.js Express.

Архитектура: Диспетчер и Технарь

Главная проблема маленьких моделей (уровня 3B–4B) — они глупеют и быстро «забывают» инструкции, если история чата разрастается, а контекст забивается. Чтобы решить это, я разделил обязанности между двумя моделями через кастомный Express-шлюз на Node.js:

Qwen2.5:3b (Диспетчер) — сидит на передовой. Она быстрая, легкая и общается с пользователем. Её главная задача — понять намерение (Intent) и, если нужно, нажать на тумблер вызова функций (tools).

Phi-4-mini:3.8b (Технарь/Редактор) — сидит в фоне. Она умнее, обладает строгой логикой и запускается шлюзом только для тяжелой аналитики и работы с базой данных.

Фишка №1: Умная новостная лента без кликбейта

Ассистент умеет собирать свежие новости по любому запросу пользователя. По команде «Диспетчера» шлюз на Node.js через библиотеку cheerio забирает текст статьи из интернета, жестко обрезает его до первых 2500 символов (чтобы сохранить быстродействие и не забивать контекст) и передает модели Phi-4-mini.

Модель выполняет роль строгого выпускающего редактора: вырезает весь спам, рекламу, время публикации, фразы вроде «иллюстративное фото» и переписывает хаотичный кликбейт в лаконичный, интеллигентный заголовок и описание. Например, заголовок скрейпера «Рыбак забился под корягу...» Phi-4 аккуратно превращает в стильное «Рыбак и 'коряга'», снабжая карточку четкой аналитической рецензией. На выходе мы получаем чистую, премиальную плитку новостей в интерфейсе FlatList.

-2

Фишка №2: Долгосрочная память без раздувания контекста

Передавать всю историю переписки в модель нельзя — это мгновенно замедлит генерацию первого токена. Я реализовал динамический блок памяти.

Когда пользователь знакомится или сообщает факт о себе («Меня зовут Дима», «Я люблю кофе по утрам»), Qwen активирует нативный инструмент записи. Шлюз перехватывает сигнал и отправляет строку на глубокий анализ к Phi-4-mini. Модель вычищает мусор и формирует строгий JSON, который нативный брокер физически укладывает в файл на диск.

При каждом новом запросе Node.js подтягивает эти факты из файла и вшивает их в изолированный блок [АРХИВ ФАКТОВ] системного промпта. Модель всегда помнит, как зовут пользователя, тратя на это всего пару десятков токенов!

Укрощение капризов ИИ: как мы победили «хулиганство» моделей

В процессе тестов проявился забавный баг. На обычные абстрактные вопросы («Расскажи что-нибудь интересное») Qwen путалась и ложно вызывала инструмент памяти. Phi-4-mini получала этот текст, понимала, что новых фактов для записи нет, и по инструкции возвращала fact: null. Но интерфейс выдавал пользователю системную заглушку: «Информация занесена в бортовой компьютер».

Решение оказалось чисто программным. Я написал «всеядный» Regex-фильтр на Node.js, который перехватывает любые вариации null от модели (включая капризы вроде «Пользователь: null»). Если запись на диск отклонена, шлюз «на лету» делает быстрый локальный перевызов Phi-4-mini, но уже в текстовом режиме, заставляя её ответить человеческим языком.

В итоге вместо системной ошибки или пустой карточки пользователь мгновенно получает развернутый и живой рассказ (например, про вулканы и ледники Исландии), а верстка приложения остается идеальной.

-3

Итоги эксперимента

Опыт показал: каскадная оркестрация локальных моделей уровня 3B–4B позволяет создавать молниеносные, умные и полностью автономные интерфейсы. Имея под рукой даже старый ноутбук со сгоревшей видеопамятью и прямые руки, можно собрать медиа-хаб, который по качеству работы и комфорту взаимодействия не уступает коммерческим облачным решениям от крупных корпораций.