211 подписчиков

400 миллиардов параметров в кармане: как энтузиасты запустили гигантскую нейросеть на iPhone 17 Pro и почему это меняет правила игры

23 марта23 мар

7 мин

Ещё вчера фраза «запустить 400-миллиардную языковую модель на смартфоне» звучала как откровенный бред. Модели такого масштаба — это территория серверных стоек с сотнями гигабайт оперативки и промышленным охлаждением. Для контекста: квантизированная (то есть уже сжатая) версия такой модели занимает около 209 ГБ, а в iPhone 17 Pro — всего 12 ГБ оперативной памяти. Казалось бы, разница в 17 раз, математика не в пользу смартфона. Но 23 марта 2026 года разработчик под ником @anemll выложил видео, на котором iPhone 17 Pro генерирует текст силами Qwen3.5-397B-A17B — модели с почти 400 миллиардами параметров. И это не фейк, не маркетинг и не серверный прокси за кулисами. Это реально работает. Медленно — но работает. Давайте разберёмся, как такое вообще стало возможным, какие технические трюки за этим стоят и что это означает для будущего локального ИИ. Первое, что нужно понять: Qwen3.5-397B-A17B — это не обычная «монолитная» нейросеть. Это модель архитектуры Mixture of Experts (MoE), и в этом

Оглавление

Когда телефон становится дата-центром
Mixture of Experts: не все 400 миллиардов нужны одновременно
Flash-MoE: SSD вместо оперативки

Когда телефон становится дата-центром

Давайте разберёмся, как такое вообще стало возможным, какие технические трюки за этим стоят и что это означает для будущего локального ИИ.

Mixture of Experts: не все 400 миллиардов нужны одновременно

Первое, что нужно понять: Qwen3.5-397B-A17B — это не обычная «монолитная» нейросеть. Это модель архитектуры Mixture of Experts (MoE), и в этом вся суть трюка.

Представьте компанию со 128 узкими специалистами. Когда приходит запрос, не все 128 человек бросаются его решать — маршрутизатор выбирает 4 наиболее подходящих эксперта, и только они работают. Остальные 124 сидят без дела. В нейросети это означает, что из почти 400 миллиардов параметров при генерации каждого токена активны лишь около 17 миллиардов. Вот этот факт и превращает невозможное в сложное, но реализуемое.

Flash-MoE: SSD вместо оперативки

Ключевая технология, которая сделала демо возможным, называется Flash-MoE. Это open-source движок инференса, написанный на чистом C, Objective-C и ручных Metal-шейдерах для GPU Apple. Никакого Python, никаких фреймворков — только низкоуровневый код, оптимизированный до последнего такта.

Принцип работы радикально простой по идее и дьявольски сложный в реализации:

⚙️ Стриминг с SSD на GPU. Вместо того чтобы загружать все 209 ГБ модели в оперативную память (что физически невозможно на iPhone), Flash-MoE потоково подгружает только нужные «экспертные» веса прямо с SSD-накопителя в GPU. Для каждого токена с диска читаются только 4 активных эксперта — это примерно 3.9 МБ данных за раз.

⚙️ Резидентная часть модели в RAM. «Скелет» модели — таблица эмбеддингов, маршрутизирующие матрицы, механизмы внимания — постоянно живёт в оперативной памяти и занимает всего около 5–6 ГБ. Это та часть, которая решает, каких экспертов вызывать.

⚙️ Агрессивная квантизация. Веса экспертов сжаты до 2–3 бит (форматы IQ3_XXS, IQ4_XS из экосистемы llama.cpp), а критичные компоненты — эмбеддинги и LM head — хранятся в более высоком качестве (Q8_0 и Q6_K соответственно). Это микс разной точности, подобранный так, чтобы сэкономить максимум места с минимальной потерей качества.

⚙️ Кастомные Metal-шейдеры. GPU iPhone управляется через рукописные Metal compute шейдеры, которые делают деквантизацию и матричное умножение в одной fused multiply-add инструкции. Это даёт прирост ~12% по сравнению с наивной реализацией.

Предыстория: Apple предсказала это три года назад

Самое интересное — Apple ещё в декабре 2023 года опубликовала исследовательскую работу «LLM in a Flash», в которой описала именно эту концепцию: хранить веса модели во флеш-памяти и подгружать их в DRAM по мере необходимости. В той работе исследователи из Apple предложили две ключевые техники — «windowing» (повторное использование ранее активированных нейронов) и «row-column bundling» (чтение данных крупными последовательными блоками, что идеально ложится на архитектуру флеш-памяти). На тот момент они добились ускорения в 4–5 раз на CPU и 20–25 раз на GPU по сравнению с наивной загрузкой.

Flash-MoE — это, по сути, реализация идей Apple, доведённая до работающего продукта сторонними энтузиастами. Причём история создания сама по себе примечательна: оригинальный движок был написан Дэном Вудсом (Dan Woods, @danveloper — к слову, бывший CTO в команде Джо Байдена, а ныне VP of AI Platforms в CVS Health) за 24 часа, и он открыто пишет, что весь код написан Claude — он лишь задавал направление и подключался на этапах оптимизации. Это отдельная тема для размышлений о том, как AI помогает строить AI-инфраструктуру.

Цифры: честный взгляд без розовых очков

Давайте будем реалистами — 0.6 токена в секунду на iPhone 17 Pro это, мягко говоря, не Usain Bolt среди нейросетей. В пересчёте на человеческий язык — одно слово каждые полторы-две секунды. Для сравнения:

📈 На MacBook Pro M3 Max (48 ГБ RAM) — тот же Flash-MoE выдаёт ~5.5 токенов/сек с 2-битными экспертами и ~4.8 токена/сек с 4-битными. Это уже вполне юзабельно.

📈 На M4 Max — разработчик сообщает о 12–15 токенах/сек, что сопоставимо с комфортным чтением.

📈 На M1 Ultra (256 ГБ) — один из пользователей на Hacker News отчитался о ~20 токенах/сек с контекстным окном в 256K токенов. И это с бенчмарками: 87.86% на MMLU, 82.32% на GPQA Diamond — достойные показатели для модели такого класса.

📈 Теоретический потолок, ограниченный пропускной способностью SSD — около 18.6 токенов/сек на M3 Max. Текущие 5.7 токенов/сек — это лишь 30% от возможного, так что оптимизациям есть куда расти.

На iPhone 0,6 токена в секунду — это скорее доказательство концепции, а не полноценный рабочий инструмент. Но такое доказательство концепции, от которого у многих буквально отвисла челюсть.Как написал один из комментаторов в Twitter:
«Модель на 400 миллиардов параметров у тебя в кармане. Переход от облака к локальным решениям происходит быстрее, чем кто-либо ожидал.»

Почему это важно: приватность, автономность, деньги

Окей, медленно. Окей, батарея iPhone будет плавиться. Но давайте на секунду отвлечёмся от скорости и посмотрим на картину шире.

🔒 Полная приватность. Когда модель работает локально, ваши данные никуда не уходят. Ни один запрос не покидает устройство. Для медицинских, юридических и финансовых сценариев это не просто «nice to have» — это часто юридическое требование.

🌐 Автономность. Нет интернета? Не проблема. Самолёт, подвал, деревня без связи — AI-ассистент продолжает работать. Это меняет правила для военных, спасательных и экспедиционных сценариев.

💰 Экономика. Запуск модели уровня 400B в облаке стоит сотни долларов в час на GPU-кластерах. Локальный инференс — это ноль долларов за API-вызовы. Для разработчиков и исследователей с ограниченным бюджетом (привет, стартапы и университеты) это принципиально.

Мой взгляд: мы недооцениваем скорость прогресса

Вот что меня по-настоящему впечатляет в этой истории. Не сам факт запуска (хотя он эффектный), а скорость, с которой эта область движется.

Apple опубликовала «LLM in a Flash» чуть более двух лет назад. Прошло совсем немного времени — и энтузиаст за 24 часов создаёт работающий движок, который реализует эти идеи на практике. Потом другой энтузиаст форкает проект, добавляет поддержку iOS, и вот уже 400-миллиардная модель генерирует текст на смартфоне.

Пропускная способность SSD в устройствах Apple растёт примерно на 20% с каждым поколением чипов. M3 Max — 17.5 ГБ/сек, M4 Max — уже ~25 ГБ/сек. По прикидкам Дэна Вудса, через 2–3 поколения мы получим 10+ токенов/сек для 400-миллиардной модели на ноутбуке как базовый уровень. А через 4–5 лет — вероятно, и на смартфоне.

Архитектура Apple Silicon с её единым чипом, где CPU, GPU и SSD-контроллер соединены напрямую через copper interconnect, оказалась идеально заточена под такой сценарий. Забавно: Apple проектировала это для тонких и лёгких ноутбуков, а получила идеальную платформу для стриминга нейросетевых весов с накопителя.

Что дальше?

Qwen3.5-397B-A17B — это лишь начало. Техника Flash-MoE работает для любых MoE-моделей, где экспертные веса составляют основную массу параметров. DeepSeek-V3 с 671 миллиардом параметров (37 миллиардов активных) — очевидный следующий кандидат.

Мы стоим на пороге эпохи, когда frontier-класс AI-модели перестают быть привилегией облачных гигантов. Пока что это медленно, горячо (буквально) и требует технических навыков для настройки. Но то же самое можно было сказать про интернет в 1995 году. Помните модемные звуки? 0.6 токена в секунду на iPhone — это модемный звук эры локального ИИ. Дайте ему пару лет.

Источники

⭐ Оригинальный твит @anemll: https://twitter.com/anemll/status/2035901335984611412

⭐ Подробная статья на Telegra.ph: https://telegra.ph/Iskusstvennyj-intellekt-na-ladoni-kak-iPhone-17-Pro-smog-zapustit-gigantskuyu-nejroset-i-chto-ehto-znachit-dlya-vseh-nas-03-23

⭐ Репозиторий Flash-MoE (форк Anemll, ветка iOS-App): https://github.com/Anemll/flash-moe/tree/iOS-App

⭐ Оригинальный репозиторий Flash-MoE (Dan Woods): https://github.com/danveloper/flash-moe

⭐ Тред Дэна Вудса о создании Flash-MoE: https://x.com/danveloper/status/2034353876753592372

⭐ Исследование Apple «LLM in a Flash» (arXiv): https://arxiv.org/abs/2312.11514

⭐ Обзор Саймона Уиллисона: https://simonwillison.net/2026/Mar/18/llm-in-a-flash/