iPhone 17 Pro показали в работе с локальной LLM на 400 млрд параметров — модель запустили прямо на смартфоне, без облака. Демонстрацию опубликовал разработчик @anemll, но скорость генерации получилась всего 0,6 токена в секунду. Для понимания масштаба: даже в сжатом виде модели такого класса обычно требуют минимум 200 ГБ памяти. У iPhone 17 Pro при этом только 12 ГБ LPDDR5X, так что в лоб такой запуск невозможен. В демонстрации использовали open-source проект Flash-MoE. Его ключевая идея — не пытаться загрузить весь вес модели в оперативную память. Вместо этого система использует накопитель смартфона и стримит параметры с SSD напрямую на GPU. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Вторая часть трюка — архитектура MoE (Mixture of Experts). Она не гоняет все 400 млрд параметров на каждом шаге. Для генерации каждого слова задействуется только часть «экспертов», поэтому требования к активной памяти ниже, чем у «монолитной» модели того же размера. Running 400B
iPhone 17 Pro запустил LLM на 400 млрд параметров локально
23 марта23 мар
3
2 мин