iPhone 17 Pro запустил LLM на 400 млрд параметров локально

23 марта23 мар

2 мин

iPhone 17 Pro показали в работе с локальной LLM на 400 млрд параметров — модель запустили прямо на смартфоне, без облака. Демонстрацию опубликовал разработчик @anemll, но скорость генерации получилась всего 0,6 токена в секунду. Для понимания масштаба: даже в сжатом виде модели такого класса обычно требуют минимум 200 ГБ памяти. У iPhone 17 Pro при этом только 12 ГБ LPDDR5X, так что в лоб такой запуск невозможен. В демонстрации использовали open-source проект Flash-MoE. Его ключевая идея — не пытаться загрузить весь вес модели в оперативную память. Вместо этого система использует накопитель смартфона и стримит параметры с SSD напрямую на GPU. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Вторая часть трюка — архитектура MoE (Mixture of Experts). Она не гоняет все 400 млрд параметров на каждом шаге. Для генерации каждого слова задействуется только часть «экспертов», поэтому требования к активной памяти ниже, чем у «монолитной» модели того же размера. Running 400B

Оглавление

Как 400B-модель вообще поместилась в iPhone 17 Pro
Скорость 0,6 токена/с: запустить можно, пользоваться сложно
Почему это важно, даже если 200 ГБ RAM у смартфонов нет

iPhone 17 Pro показали в работе с локальной LLM на 400 млрд параметров — модель запустили прямо на смартфоне, без облака. Демонстрацию опубликовал разработчик @anemll, но скорость генерации получилась всего 0,6 токена в секунду.

Для понимания масштаба: даже в сжатом виде модели такого класса обычно требуют минимум 200 ГБ памяти. У iPhone 17 Pro при этом только 12 ГБ LPDDR5X, так что в лоб такой запуск невозможен.

Как 400B-модель вообще поместилась в iPhone 17 Pro

В демонстрации использовали open-source проект Flash-MoE. Его ключевая идея — не пытаться загрузить весь вес модели в оперативную память. Вместо этого система использует накопитель смартфона и стримит параметры с SSD напрямую на GPU.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Вторая часть трюка — архитектура MoE (Mixture of Experts). Она не гоняет все 400 млрд параметров на каждом шаге. Для генерации каждого слова задействуется только часть «экспертов», поэтому требования к активной памяти ниже, чем у «монолитной» модели того же размера.

Скорость 0,6 токена/с: запустить можно, пользоваться сложно

Running 400B model on iPhone!
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP— Anemll (@anemll) March 23, 2026

Цена такого фокуса — производительность. В показанном запуске iPhone 17 Pro выдаёт 0,6 t/s, то есть примерно одно слово раз в 1,5-2 секунды. Это тот случай, когда «оно работает», но ждать ответ на обычный запрос придётся заметно дольше, чем в привычных чат-ботах.

Ещё один практический момент — нагрузка на аккумулятор. Локальная генерация даёт приятный бонус: 100% приватность и работа без активного интернета. Но за это смартфон платит энергопотреблением и нагревом, особенно когда идёт постоянный стрим данных с SSD и расчёты на GPU.

Почему это важно, даже если 200 ГБ RAM у смартфонов нет

Сам факт запуска 400B LLM на смартфоне показывает, что «on-device AI» упирается не только в объём RAM. Разработчики уже обходят ограничения через стриминг и MoE-подход, пусть и с жёсткими компромиссами по скорости.

При этом демонстрация не отменяет базовую математику: квантованные версии таких моделей всё равно могут требовать от 200 ГБ RAM, если грузить их целиком. В iPhone 17 Pro такой сценарий нереален, поэтому и понадобились нестандартные техники.

Пост с демонстрацией датирован 23 марта 2026 года и опубликован в аккаунте @anemll.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

iPhone 17 Pro запустил LLM на 400 млрд параметров локально ⚡️