111 подписчиков

Запускаем YandexGPT-5-Lite-8B на мобильном телефоне: как квантизация помогла маленькой российской модели обойти конкурентов

7 октября 20257 окт 2025

6 мин

Всем привет! С вами опять Квеныч. Знаете, я всегда с изрядной долей скепсиса относился к отечественному софту. Когда я впервые прочитал про российские языковые модели, я мысленно уже приготовился к разочарованию. "Очередная пересборка международного опенсорса под отечественный бренд", — подумал я. Но, на деле, всё оказалось не так просто и не так мрачно. А дело было так. Я столкнулся с практической задачей: мне понадобилась языковая модель, которая бы действительно хорошо понимала русский язык. Не просто формально "поддерживала русский", а чувствовала все его нюансы — от особенностей грамматики до культурного контекста. Когда я начал тестировать доступные модели, то столкнулся с неожиданной проблемой. Оказалось, что качественных бесплатных решений с хорошей поддержкой русского языка на самом деле очень мало. Да, есть много мультиязычных моделей, но они часто мыслят на английском, а русский для них — вторичен. Отсюда и кривые формулировки, и непонимание специфических русских реалий, и п

Оглавление

Пятерка лидеров, понимающих русский язык
YandexGPT-5-Lite-8B - победитель гонки
Волшебство квантизации

Всем привет! С вами опять Квеныч.

Знаете, я всегда с изрядной долей скепсиса относился к отечественному софту. Когда я впервые прочитал про российские языковые модели, я мысленно уже приготовился к разочарованию. "Очередная пересборка международного опенсорса под отечественный бренд", — подумал я. Но, на деле, всё оказалось не так просто и не так мрачно.

А дело было так. Я столкнулся с практической задачей: мне понадобилась языковая модель, которая бы действительно хорошо понимала русский язык. Не просто формально "поддерживала русский", а чувствовала все его нюансы — от особенностей грамматики до культурного контекста.

Когда я начал тестировать доступные модели, то столкнулся с неожиданной проблемой. Оказалось, что качественных бесплатных решений с хорошей поддержкой русского языка на самом деле очень мало. Да, есть много мультиязычных моделей, но они часто мыслят на английском, а русский для них — вторичен. Отсюда и кривые формулировки, и непонимание специфических русских реалий, и просто странные ответы.

Пятерка лидеров, понимающих русский язык

После проведения первичного отбора у меня осталось всего пять перспективных кандидатов:

- Китайские Qwen3 от Alibaba (значительно лучше прежней версии Qwen2.5)

- Специально обученная русскому языку SambaLingo-Russian-Chat

- И три отечественные разработки: Cotype-Nano от МТС, GigaChat-20B от СБЕР и наш сегодняшний герой — YandexGPT-5-Lite-8B от Яндекс

Первой пришлось попрощаться с Cotype-Nano. Она построена на базе Qwen 2.5 с всего 1.5 миллиардами параметров. Это очень мало для выполнения большинства сложных задач. Представьте себе умного щенка-пуделя: он может принести тапочки и выполнить простые команды, но решить сложную задачу ему не под силу. Так и Cotype-Nano — хороша для простого перевода или суммаризации, но для серьезной работы со сложными абстрактными задачами она не годится. Для такой работы языковая модель должна преодолеть некий "порог разумности", который отделяет чат-бот от реально полезной модели с широким функционалом. Опытным путем, перебрав много моделей, я установил этот порог где то на уровне 7b-8b параметров. Больше конечно же лучше,
поэтому я стал пробовать более масштабные модели.

От GigaChat-20B тоже пришлось отказаться, но уже по другим причинам.
Во первых GigaChat большой, а значит, не загружается полностью в мою
скромную видеокарту на 8ГБ VRAM, во вторых использует MOE-архитектуру (Mixture of Experts), как Deepseek 16BMoe или Mixtral. Почему, MOE архитектура не подошла моему старенькому компьютеру, я расскажу как нибудь в другой раз, а сейчас вернемся к моделям поменьше.

И вот у меня осталась тройка финалистов: Qwen3, SambaLingo-Russian-Chat и YandexGPT-5-Lite-8B. Казалось бы, выбирай любую.

И вот здесь началось самое интересное.

SambaLingo оказалась приятным собеседником — дружелюбная, эмоциональная, с прекрасным русским языком. Но когда я дал ей сложный аналитический промпт, она буквально "зависла". Модель, обученная в основном на литературных и разговорных текстах, не справлялась с глубоким анализом. Она пыталась подобрать нужные слова, но теряла нить рассуждений.

DeepSeek-R1-Qwen3-8B показал себя с совершенно другой стороны. Это был настоящий аналитик, способный к сложным размышлениям. Но инженеры Alibaba встроили в Qwen3 режим "размышлений" по умолчанию, что значительно увеличивало расход токенов. На моем ограниченном контексте модель часто не успевала закончить мысль, упираясь в лимит токенов, и просто обрывала вывод рассуждения на половине. Расширить лимит можно, но это требует еще больше памяти. А с видеопамятью, как вы уже поняли, у меня напряженка.

YandexGPT-5-Lite-8B - победитель гонки

И вот пришла очередь YandexGPT-5-Lite-8B. И надо сказать, меня ждал сюрприз.

Когда я впервые о нем услышал, я первым делом, конечно, полез в интернет проверять, что же такое этот YandexGPT-5-Lite-8B. Нашел информацию, что модель построена на архитектуре Llama 2. "Ну вот, — подумал я, — как и ожидал. Взяли бесплатную Llama, немного дообучили и выдают за свое достижение". Но дальнейшие тесты модели меня приятно удивили.

Эта модель ВНЕЗАПНО оказалась весьма сбалансированной. С русским языком в диалогах она работала не хуже SambaLingo, но при этом обладала аналитическими способностями, сравнимыми с моделями серии Qwen. Она выдает точные, выверенные ответы без лишних "размышлений вслух", что делает ее стабильной и предсказуемой в работе на скромном пользовательском железе.

Затем, я поставил себе задачу, логически вытекающую из предыдущей-развить успех и перенести модель с ПК на мобильный телефон. И вот тут я столкнулся с проблемой. Мой смартфон имеет всего 4 ГБ видеопамяти. И вот тут
на сцену вышла технология, которая изменила баланс сил — квантизация.

Волшебство квантизации

Представьте, что языковая модель — это огромная библиотека, где каждая книга написана с максимальной точностью. Квантизация — это умный способ как бы переписать эти книги более компактным почерком, сохранив при этом все ключевые идеи.

Благодаря квантизации модель из 8 миллиардов параметров из неподъемного гиганта превращается в файл размером 4-5 ГБ, который комфортно помещается в память обычной видеокарты. Существенно позже, когда я уже стал намного опытнее и научился регулировать запуск тонкими настройками, благодаря квантизации, мне удалось запустить на своей видеокарте и GigaChat-20B-A3B-instruct-IQ2_M и Qwen3-14B-Q3_K_S (последним я в основном пользуюсь до сих пор), но это уже совсем другая история...

Умный совет от Квеныча:

- Для видеокарты 6-8 ГБ выбирайте квантование Q4_K_M или Q5_K_M

- Для 4 ГБ памяти или слабого процессора берите Q3_K_S
- Если хотите попытаться запустить на свой страх и риск 14B модель на 6-8 ГБ VRAM тоже берите Q3_K_S

Именно в квантованном виде я и тестировал своих финалистов:

- SambaLingo-Russian-Chat-i1-Q5_K_M

- YandexGPT-5-Lite-8B-instruct-i1-Q5_K_M

- DeepSeek-R1-0528-Qwen3-8B-Q4_K_M

Но вернемся к моему смартфону и YandexGPT-5-Lite-8B. Для смартфона я скачал версию YandexGPT-5-Lite-8B-instruct-i1-Q3_K_S для смартфона с 4 ГБ памяти. Размер модели — всего 3,41 ГБ и она вполне поместилась в эту память. Да, работала она медленнее, чем на компьютере, но РАБОТАЛА. И это была полноценная 8-миллиардная модель, перешагнувшая тот самый "порог разумности", за которым ИИ превращается из игрушки в рабочий инструмент.

Запускаем YandexGPT-5-Lite-8B на мобильном телефоне

Если моя история вас заинтересовала, вот что нужно для повторения этого эксперимента:

1. Основной инструмент: Квантованная версия YandexGPT-5-Lite-8B

- Форматы: GGUF (рекомендую Q3_K_S для смартфона с 4ГБ видеопамяти)

- Где взять: Hugging Face (ВНИМАНИЕ файл формата GGUF 3,41 ГБ рекомендую качать через канал интернета с безлимитным трафиком)

2. Программа для запуска: PocketPal AI
О том, как в принципе запустить локальную языковую модель на смартфоне я писал подробную инструкцию в одной из предыдущих статей

Совет от Квеныча: Создайте на диске папку "Модели ИИ" и складывайте туда все скачанные модели — это сэкономит массу времени в будущем.

Что в итоге?

Мой скепсис по отношению к отечественным разработкам в области ИИ оказался неоправданным. YandexGPT-5-Lite-8B — это серьезная модель, которая не просто "догоняет" западные аналоги, а предлагает уникальное сочетание качественной поддержки русского языка и эффективной работы на ограниченных ресурсах, особенно в квантованном виде.

Благодаря квантизации мощный искусственный интеллект теперь доступен не только владельцам серверов, но и обычным пользователям со средними ПК и даже владельцам смартфонов. Мы живем в удивительное время, когда технологии действительно становятся доступными для всех.

А вы уже пробовали локальные языковые модели? Какие впечатления? Обязательно поделитесь в комментариях — мне действительно интересен ваш опыт! Если возникнут вопросы по запуску — спрашивайте, помогу разобраться.

Подписывайтесь на мой блог и ставьте лайк, если было интересно! Впереди еще много практических руководств и неожиданных открытий в мире ИИ.