Добавить в корзинуПозвонить
Найти в Дзене

ИИ-модель на андроид локально: инструкция

Итак здравствуйте! Нужен быстрый ответ, перевод или совет? Не ждите интернета — спросите у ИИ в своем телефоне. Локальные LLM на Android: приватно, быстро, без подписок. Современные технологии, которые в вашем кармане и без интернета. На вашем устройстве, если у вас их недостаточно она может:   > — Сильно нагреть корпус 🔥   > — Работать очень медленно: (0.1–0.3 слова/сек)   > — Разрядить батарею за 1–2 часа   > Рекомендуется: облачный режим (приложение "deep seek" или "qwen") или лёгкие модели (универсальный показатель, что модель "легкая" это вес меньше 2 гб) 1.В отличие от облачных моделей (крторые находятся в дата центрах и передают ответы по интернету), Локальным моделям не нужен интернет, кроме самого момента скачивания дистрибутивов, они автономны, все вычисления производятся непосредственно на устройстве. 2.Полная конфиденциальность: Что вы спрашиваете и обсуждаете с моделью, исключительно ваше дело, если только вы добровольно не покажите кому-нибудь. (лично у меня Samsung a5
Оглавление

Итак здравствуйте!

Нужен быстрый ответ, перевод или совет? Не ждите интернета — спросите у ИИ в своем телефоне. Локальные LLM на Android: приватно, быстро, без подписок. Современные технологии, которые в вашем кармане и без интернета.

Сразу стоит предупредить!

ИИ-модели требуют больших ресурсов.

На вашем устройстве, если у вас их недостаточно она может:  

> — Сильно нагреть корпус 🔥  

> — Работать очень медленно: (0.1–0.3 слова/сек)  

> — Разрядить батарею за 1–2 часа  

> Рекомендуется: облачный режим (приложение "deep seek" или "qwen") или лёгкие модели (универсальный показатель, что модель "легкая" это вес меньше 2 гб)

Теперь главные плюсы:

1.В отличие от облачных моделей (крторые находятся в дата центрах и передают ответы по интернету), Локальным моделям не нужен интернет, кроме самого момента скачивания дистрибутивов, они автономны, все вычисления производятся непосредственно на устройстве.

2.Полная конфиденциальность:

Что вы спрашиваете и обсуждаете с моделью, исключительно ваше дело, если только вы добровольно не покажите кому-нибудь.

Работа локальных версий LLM на смартфоне ниже 8гб оперативной памяти не тестировалась!

(лично у меня Samsung a55, если у вас средний сегмент смартфона или выше, тогда проблем быть не должно)

Если вы всё ещё хотите установить на свой смартфон LLM - Large Language(большая языковая модель)

1. Скачайте и установите приложение:

PocketPal AI - Apps on Google Play

И запустите его.

2. Дальше в левом верхнем углу нажмите иконку "список" (три полоски)

Слева сверху
Слева сверху

3. После нажимаем на надпись "Models"

Откроется список доступных моделей.
Откроется список доступных моделей.

Всё уже можете установить и запустить.

Для начала рекомендую

Gemma-2-2b-it (Q6_K)

4. Нажимаете на кнопку "Download"

-3

После того как у вас скачается дистрибутив (в данном случае 2.15GB)

Нажимаем кнопку "Load"(загрузить/запустить)

-4

После этого у вас откроется чат с ИИ, можете ему что-нибуь написать, он ответит

Если вы дошли до этого момента, вы огромный молодец
Если вы дошли до этого момента, вы огромный молодец

Дальше информация для продвинутых пользователей или тех, кому интересно попробовать другие модели и/или настроить их на свой вкус.

Слева направо
Слева направо

"Delete" - удалить дистрибутив, если он вам больше не нужен

"Settings" - настройка, там прописывается тонкое поведение ИИ.

"Offload" - выгрузить из памяти/выключить.

Вы можете писать всё что угодно ему на русском языке, не обязательно использовать английский (например: Ты лучший в мире юморист, отвечай шутками и т.д.)

"Gemma 2 2b Q6_K приблизительный аналог gpt 3.5 turbo, но можно скачать что-то помощнее, всё зависит от вашего устройства"

Для справки: (Q6_ - степень 6 бит квантования, тоесть насколько модель урезана по сравнению с первоначалбной версией, они как правило, обозначаются суффиксами: f16 - f32 (16 и 32 бит)

"в конце статьи приведу подробную шпаргалку"

4. В углу справа снизу будет иконка "+" (добавить)

Для доступа ко множеству видов моделей
Для доступа ко множеству видов моделей

Все бесплатные модели находятся на сайте Hugging Face, и приложение позволяет прямо оттуда сразу загружать к себе "без танцев с бубном"

5. Нажимаем "Add from Hugging Face"(добавить с этого сайта)

-8

6. Здесь очень много разных модификаций, но для начала я вам рекомендую установить gemma 3.

-9

насколько я знаю сейчас одна из мощных на смартфоны это gemma-3n-E2B-It (но у меня до сих пор сомнения, что она целесообразна, если только на супер флагманы) она явно мощнее чем gemma2, но я предлагаю для начала установить версию полегче: Gemma3-4b-i1

(i1 это облегчённая модификация для мобильных устройств)

В будущем рекомендую обращать внимание на i1 - эти версии специально оптимизируют под смартфоны.

-10

7. Рекомендую выбрать для начала с квантованием "-Q4_0"

Нажимаете иконку со стрелочкой справа
Нажимаете иконку со стрелочкой справа

Дальше всё тоже самое что и с gemma2.

Я вас поздравляю мы справились в этом непростом деле)

Дальше список квантований и суффиксов в формате GGUF/GGML (на основе llama.cpp):

Основные типы квантования (битность)

1. "F16"

- Полуточный формат (16 бит)

- Размер: ~50% от оригинальной модели

- Для: серверных GPU

2. "Q8_0/ Q8"

- 8.5 бит/вес

- Почти полная точность (FP16)

3. "Q6_K"

- 6.2 бит/вес

- Золотой стандарт для 2B-8B моделей (2b это 2 миллиарда параметров у модели, 4 b - 4 миллиарда, 8b - 8 миллиардов)

Для использования на телефоне достаточно от 1b до 4b, больше не рекомендую, скорее всего не запустится или будет очень медленно отвечать.

4. "Q5_K" (и подвиды *Q5_0, *Q5_1)

- 5.4 бит/вес

- Лучшее соотношение размер/качество

5. "Q4_K"

- 4.5 бит/вес

- Минимум для адекватной работы

6. "Q3_K"

- 3.4 бит/вес

- Для слабого железа с потерей качества

7. "Q2_K"

- 2.6 бит/вес

- Экспериментальный (часто "галлюцинирует")

---

Суффиксы оптимизации (алгоритмы)

1. "_S" (Small)

- Маленькие блоки → быстрее на CPU

- Пример: "Q4_K_S"

2. "_M" (Medium)

- Баланс скорости/точности (рекомендуемый)

- Пример: "Q5_K_M"

3. "_L"(Large)

- Крупные блоки → точнее, но медленнее

- Пример: "Q6_K_L"

4. "_XL" (Extra Large)

- Максимальная точность в классе

---

I-кванты (Imatrix)

1."IQ4_XS"

- 4.1 бит/вес + Vulkan-оптимизация

- Для: смартфонов/слабых GPU

2. "IQ3_XXS/IQ3_XS"

- 3.3–3.4 бит/вес

- Лучший в 3-битном классе

3. "IQ3_M"

- 3.7 бит/вес

- Стабильная версия для CPU

4. "IQ2_XXS"

- 2.2 бит/вес

- Экстремальное сжатие (Raspberry Pi)

---

Специальные суффиксы

1. "NL" (Non-Layerwise)

- Устаревший → сейчас почти не используется

2. "P"(Precise)

- Альтернатива _M (например `IQ3_M` vs `IQ3_S_P`)

3. "A" (Asymmetric)

- Экспериментальные методы

---

Примеры комбинаций

- "Q4_K_M": 4.5 бит, средний блок (оптимум для CPU)

- "Q5_K_S": 5.4 бит, малый блок (быстрый на слабых ПК)

- "IQ4_XS": 4.1 бит + imatrix (для Android Snapdragon)

- "Q2_K": 2.6 бит (только для тестов)

- "F16": эталон точности (для мощных GPU)

> Правило выбора:

> Чем выше цифра (Q6 > Q4) → тем лучше качество.

> Чем "тяжелее" суффикс (_L > _S) → тем выше точность.

> I-кванты (IQ) эффективнее обычных Q при равной битности.