Итак здравствуйте!
Нужен быстрый ответ, перевод или совет? Не ждите интернета — спросите у ИИ в своем телефоне. Локальные LLM на Android: приватно, быстро, без подписок. Современные технологии, которые в вашем кармане и без интернета.
Сразу стоит предупредить!
ИИ-модели требуют больших ресурсов.
На вашем устройстве, если у вас их недостаточно она может:
> — Сильно нагреть корпус 🔥
> — Работать очень медленно: (0.1–0.3 слова/сек)
> — Разрядить батарею за 1–2 часа
> Рекомендуется: облачный режим (приложение "deep seek" или "qwen") или лёгкие модели (универсальный показатель, что модель "легкая" это вес меньше 2 гб)
Теперь главные плюсы:
1.В отличие от облачных моделей (крторые находятся в дата центрах и передают ответы по интернету), Локальным моделям не нужен интернет, кроме самого момента скачивания дистрибутивов, они автономны, все вычисления производятся непосредственно на устройстве.
2.Полная конфиденциальность:
Что вы спрашиваете и обсуждаете с моделью, исключительно ваше дело, если только вы добровольно не покажите кому-нибудь.
Работа локальных версий LLM на смартфоне ниже 8гб оперативной памяти не тестировалась!
(лично у меня Samsung a55, если у вас средний сегмент смартфона или выше, тогда проблем быть не должно)
Если вы всё ещё хотите установить на свой смартфон LLM - Large Language(большая языковая модель)
1. Скачайте и установите приложение:
И запустите его.
2. Дальше в левом верхнем углу нажмите иконку "список" (три полоски)
3. После нажимаем на надпись "Models"
Всё уже можете установить и запустить.
Для начала рекомендую
Gemma-2-2b-it (Q6_K)
4. Нажимаете на кнопку "Download"
После того как у вас скачается дистрибутив (в данном случае 2.15GB)
Нажимаем кнопку "Load"(загрузить/запустить)
После этого у вас откроется чат с ИИ, можете ему что-нибуь написать, он ответит
Дальше информация для продвинутых пользователей или тех, кому интересно попробовать другие модели и/или настроить их на свой вкус.
"Delete" - удалить дистрибутив, если он вам больше не нужен
"Settings" - настройка, там прописывается тонкое поведение ИИ.
"Offload" - выгрузить из памяти/выключить.
Вы можете писать всё что угодно ему на русском языке, не обязательно использовать английский (например: Ты лучший в мире юморист, отвечай шутками и т.д.)
"Gemma 2 2b Q6_K приблизительный аналог gpt 3.5 turbo, но можно скачать что-то помощнее, всё зависит от вашего устройства"
Для справки: (Q6_ - степень 6 бит квантования, тоесть насколько модель урезана по сравнению с первоначалбной версией, они как правило, обозначаются суффиксами: f16 - f32 (16 и 32 бит)
"в конце статьи приведу подробную шпаргалку"
4. В углу справа снизу будет иконка "+" (добавить)
Все бесплатные модели находятся на сайте Hugging Face, и приложение позволяет прямо оттуда сразу загружать к себе "без танцев с бубном"
5. Нажимаем "Add from Hugging Face"(добавить с этого сайта)
6. Здесь очень много разных модификаций, но для начала я вам рекомендую установить gemma 3.
насколько я знаю сейчас одна из мощных на смартфоны это gemma-3n-E2B-It (но у меня до сих пор сомнения, что она целесообразна, если только на супер флагманы) она явно мощнее чем gemma2, но я предлагаю для начала установить версию полегче: Gemma3-4b-i1
(i1 это облегчённая модификация для мобильных устройств)
В будущем рекомендую обращать внимание на i1 - эти версии специально оптимизируют под смартфоны.
7. Рекомендую выбрать для начала с квантованием "-Q4_0"
Дальше всё тоже самое что и с gemma2.
Я вас поздравляю мы справились в этом непростом деле)
Дальше список квантований и суффиксов в формате GGUF/GGML (на основе llama.cpp):
Основные типы квантования (битность)
1. "F16"
- Полуточный формат (16 бит)
- Размер: ~50% от оригинальной модели
- Для: серверных GPU
2. "Q8_0/ Q8"
- 8.5 бит/вес
- Почти полная точность (FP16)
3. "Q6_K"
- 6.2 бит/вес
- Золотой стандарт для 2B-8B моделей (2b это 2 миллиарда параметров у модели, 4 b - 4 миллиарда, 8b - 8 миллиардов)
Для использования на телефоне достаточно от 1b до 4b, больше не рекомендую, скорее всего не запустится или будет очень медленно отвечать.
4. "Q5_K" (и подвиды *Q5_0, *Q5_1)
- 5.4 бит/вес
- Лучшее соотношение размер/качество
5. "Q4_K"
- 4.5 бит/вес
- Минимум для адекватной работы
6. "Q3_K"
- 3.4 бит/вес
- Для слабого железа с потерей качества
7. "Q2_K"
- 2.6 бит/вес
- Экспериментальный (часто "галлюцинирует")
---
Суффиксы оптимизации (алгоритмы)
1. "_S" (Small)
- Маленькие блоки → быстрее на CPU
- Пример: "Q4_K_S"
2. "_M" (Medium)
- Баланс скорости/точности (рекомендуемый)
- Пример: "Q5_K_M"
3. "_L"(Large)
- Крупные блоки → точнее, но медленнее
- Пример: "Q6_K_L"
4. "_XL" (Extra Large)
- Максимальная точность в классе
---
I-кванты (Imatrix)
1."IQ4_XS"
- 4.1 бит/вес + Vulkan-оптимизация
- Для: смартфонов/слабых GPU
2. "IQ3_XXS/IQ3_XS"
- 3.3–3.4 бит/вес
- Лучший в 3-битном классе
3. "IQ3_M"
- 3.7 бит/вес
- Стабильная версия для CPU
4. "IQ2_XXS"
- 2.2 бит/вес
- Экстремальное сжатие (Raspberry Pi)
---
Специальные суффиксы
1. "NL" (Non-Layerwise)
- Устаревший → сейчас почти не используется
2. "P"(Precise)
- Альтернатива _M (например `IQ3_M` vs `IQ3_S_P`)
3. "A" (Asymmetric)
- Экспериментальные методы
---
Примеры комбинаций
- "Q4_K_M": 4.5 бит, средний блок (оптимум для CPU)
- "Q5_K_S": 5.4 бит, малый блок (быстрый на слабых ПК)
- "IQ4_XS": 4.1 бит + imatrix (для Android Snapdragon)
- "Q2_K": 2.6 бит (только для тестов)
- "F16": эталон точности (для мощных GPU)
> Правило выбора:
> Чем выше цифра (Q6 > Q4) → тем лучше качество.
> Чем "тяжелее" суффикс (_L > _S) → тем выше точность.
> I-кванты (IQ) эффективнее обычных Q при равной битности.