16 подписчиков

ИИ-модель на андроид локально: инструкция

13 июля 202513 июл 2025

773

4 мин

Итак здравствуйте! Нужен быстрый ответ, перевод или совет? Не ждите интернета — спросите у ИИ в своем телефоне. Локальные LLM на Android: приватно, быстро, без подписок. Современные технологии, которые в вашем кармане и без интернета. На вашем устройстве, если у вас их недостаточно она может: > — Сильно нагреть корпус 🔥 > — Работать очень медленно: (0.1–0.3 слова/сек) > — Разрядить батарею за 1–2 часа > Рекомендуется: облачный режим (приложение "deep seek" или "qwen") или лёгкие модели (универсальный показатель, что модель "легкая" это вес меньше 2 гб) 1.В отличие от облачных моделей (крторые находятся в дата центрах и передают ответы по интернету), Локальным моделям не нужен интернет, кроме самого момента скачивания дистрибутивов, они автономны, все вычисления производятся непосредственно на устройстве. 2.Полная конфиденциальность: Что вы спрашиваете и обсуждаете с моделью, исключительно ваше дело, если только вы добровольно не покажите кому-нибудь. (лично у меня Samsung a5

Оглавление

Сразу стоит предупредить!
ИИ-модели требуют больших ресурсов.
Теперь главные плюсы:

Итак здравствуйте!

Нужен быстрый ответ, перевод или совет? Не ждите интернета — спросите у ИИ в своем телефоне. Локальные LLM на Android: приватно, быстро, без подписок. Современные технологии, которые в вашем кармане и без интернета.

Сразу стоит предупредить!

ИИ-модели требуют больших ресурсов.

На вашем устройстве, если у вас их недостаточно она может:

> — Сильно нагреть корпус 🔥

> — Работать очень медленно: (0.1–0.3 слова/сек)

> — Разрядить батарею за 1–2 часа

> Рекомендуется: облачный режим (приложение "deep seek" или "qwen") или лёгкие модели (универсальный показатель, что модель "легкая" это вес меньше 2 гб)

Теперь главные плюсы:

1.В отличие от облачных моделей (крторые находятся в дата центрах и передают ответы по интернету), Локальным моделям не нужен интернет, кроме самого момента скачивания дистрибутивов, они автономны, все вычисления производятся непосредственно на устройстве.

2.Полная конфиденциальность:

Что вы спрашиваете и обсуждаете с моделью, исключительно ваше дело, если только вы добровольно не покажите кому-нибудь.

Работа локальных версий LLM на смартфоне ниже 8гб оперативной памяти не тестировалась!

(лично у меня Samsung a55, если у вас средний сегмент смартфона или выше, тогда проблем быть не должно)

Если вы всё ещё хотите установить на свой смартфон LLM - Large Language(большая языковая модель)

1. Скачайте и установите приложение:

play.google.com

PocketPal AI - Apps on Google Play

И запустите его.

2. Дальше в левом верхнем углу нажмите иконку "список" (три полоски)

3. После нажимаем на надпись "Models"

Всё уже можете установить и запустить.

Для начала рекомендую

Gemma-2-2b-it (Q6_K)

4. Нажимаете на кнопку "Download"

После того как у вас скачается дистрибутив (в данном случае 2.15GB)

Нажимаем кнопку "Load"(загрузить/запустить)

После этого у вас откроется чат с ИИ, можете ему что-нибуь написать, он ответит

Если вы дошли до этого момента, вы огромный молодец

Дальше информация для продвинутых пользователей или тех, кому интересно попробовать другие модели и/или настроить их на свой вкус.

"Delete" - удалить дистрибутив, если он вам больше не нужен

"Settings" - настройка, там прописывается тонкое поведение ИИ.

"Offload" - выгрузить из памяти/выключить.

Вы можете писать всё что угодно ему на русском языке, не обязательно использовать английский (например: Ты лучший в мире юморист, отвечай шутками и т.д.)

"Gemma 2 2b Q6_K приблизительный аналог gpt 3.5 turbo, но можно скачать что-то помощнее, всё зависит от вашего устройства"

Для справки: (Q6_ - степень 6 бит квантования, тоесть насколько модель урезана по сравнению с первоначалбной версией, они как правило, обозначаются суффиксами: f16 - f32 (16 и 32 бит)

"в конце статьи приведу подробную шпаргалку"

4. В углу справа снизу будет иконка "+" (добавить)

Все бесплатные модели находятся на сайте Hugging Face, и приложение позволяет прямо оттуда сразу загружать к себе "без танцев с бубном"

5. Нажимаем "Add from Hugging Face"(добавить с этого сайта)

6. Здесь очень много разных модификаций, но для начала я вам рекомендую установить gemma 3.

насколько я знаю сейчас одна из мощных на смартфоны это gemma-3n-E2B-It (но у меня до сих пор сомнения, что она целесообразна, если только на супер флагманы) она явно мощнее чем gemma2, но я предлагаю для начала установить версию полегче: Gemma3-4b-i1

(i1 это облегчённая модификация для мобильных устройств)

В будущем рекомендую обращать внимание на i1 - эти версии специально оптимизируют под смартфоны.

7. Рекомендую выбрать для начала с квантованием "-Q4_0"

Дальше всё тоже самое что и с gemma2.

Я вас поздравляю мы справились в этом непростом деле)

Дальше список квантований и суффиксов в формате GGUF/GGML (на основе llama.cpp):

Основные типы квантования (битность)

1. "F16"

- Полуточный формат (16 бит)

- Размер: ~50% от оригинальной модели

- Для: серверных GPU

2. "Q8_0/ Q8"

- 8.5 бит/вес

- Почти полная точность (FP16)

3. "Q6_K"

- 6.2 бит/вес

- Золотой стандарт для 2B-8B моделей (2b это 2 миллиарда параметров у модели, 4 b - 4 миллиарда, 8b - 8 миллиардов)

Для использования на телефоне достаточно от 1b до 4b, больше не рекомендую, скорее всего не запустится или будет очень медленно отвечать.

4. "Q5_K" (и подвиды *Q5_0, *Q5_1)

- 5.4 бит/вес

- Лучшее соотношение размер/качество

5. "Q4_K"

- 4.5 бит/вес

- Минимум для адекватной работы

6. "Q3_K"

- 3.4 бит/вес

- Для слабого железа с потерей качества

7. "Q2_K"

- 2.6 бит/вес

- Экспериментальный (часто "галлюцинирует")

---

Суффиксы оптимизации (алгоритмы)

1. "_S" (Small)

- Маленькие блоки → быстрее на CPU

- Пример: "Q4_K_S"

2. "_M" (Medium)

- Баланс скорости/точности (рекомендуемый)

- Пример: "Q5_K_M"

3. "_L"(Large)

- Крупные блоки → точнее, но медленнее

- Пример: "Q6_K_L"

4. "_XL" (Extra Large)

- Максимальная точность в классе

---

I-кванты (Imatrix)

1."IQ4_XS"

- 4.1 бит/вес + Vulkan-оптимизация

- Для: смартфонов/слабых GPU

2. "IQ3_XXS/IQ3_XS"

- 3.3–3.4 бит/вес

- Лучший в 3-битном классе

3. "IQ3_M"

- 3.7 бит/вес

- Стабильная версия для CPU

4. "IQ2_XXS"

- 2.2 бит/вес

- Экстремальное сжатие (Raspberry Pi)

---

Специальные суффиксы

1. "NL" (Non-Layerwise)

- Устаревший → сейчас почти не используется

2. "P"(Precise)

- Альтернатива _M (например `IQ3_M` vs `IQ3_S_P`)

3. "A" (Asymmetric)

- Экспериментальные методы

---

Примеры комбинаций

- "Q4_K_M": 4.5 бит, средний блок (оптимум для CPU)

- "Q5_K_S": 5.4 бит, малый блок (быстрый на слабых ПК)

- "IQ4_XS": 4.1 бит + imatrix (для Android Snapdragon)

- "Q2_K": 2.6 бит (только для тестов)

- "F16": эталон точности (для мощных GPU)

> Правило выбора:

> Чем выше цифра (Q6 > Q4) → тем лучше качество.

> Чем "тяжелее" суффикс (_L > _S) → тем выше точность.

> I-кванты (IQ) эффективнее обычных Q при равной битности.