1838 подписчиков

На iPhone 17 Pro успешно запустили LLM на 400 млрд параметров: для этого нужно минимум 200 ГБ памяти

23 марта23 мар

2 мин

LLM на 400 млрд параметров обычно требуют 200 ГБ ОЗУ, но энтузиаст смог запустить такую модель на iPhone 17 Pro, используя проект Flash-MoE и SSD для потоковой передачи данных на GPU. Скорость генерации — всего 0,6 токена/с. — wccftech.com Большие языковые модели (LLM) с 400 миллиардами параметров могут работать только на производительном оборудовании с огромным объемом памяти, поскольку даже квантованная или сжатая версия требует минимум 200 ГБ оперативной памяти. Учитывая такие высокие требования, iPhone 17 Pro никогда не был бы первым выбором для запуска LLM на 400B, но видеодоказательства говорят об обратном: один человек продемонстрировал, что текущее поколение Apple совершило невозможное. Однако следует отметить, что этого подвига не удалось бы достичь без некоторых хитроумных уловок, так что давайте рассмотрим эти детали. На iPhone 17 Pro работал проект с открытым исходным кодом под названием Flash-MoE, и пользователь @anemll показал, что, хотя флагман может запускать эту безумн

Большие языковые модели (LLM) с 400 миллиардами параметров могут работать только на производительном оборудовании с огромным объемом памяти, поскольку даже квантованная или сжатая версия требует минимум 200 ГБ оперативной памяти. Учитывая такие высокие требования, iPhone 17 Pro никогда не был бы первым выбором для запуска LLM на 400B, но видеодоказательства говорят об обратном: один человек продемонстрировал, что текущее поколение Apple совершило невозможное. Однако следует отметить, что этого подвига не удалось бы достичь без некоторых хитроумных уловок, так что давайте рассмотрим эти детали.

Как и следовало ожидать, iPhone 17 Pro может генерировать всего 0,6 токена в секунду, но даже преодоление этой устрашающей проблемы впечатляет

На iPhone 17 Pro работал проект с открытым исходным кодом под названием Flash-MoE, и пользователь @anemll показал, что, хотя флагман может запускать эту безумно требовательную модель, это не обходится без недостатков. Во-первых, если вы еще не заметили на видео ниже, скорость генерации токенов ужасно низкая — 0,6 т/с, что эквивалентно генерации примерно одного слова каждые 1,5–2 секунды.

Предполагая, что у вас достаточно терпения или вы можете занять себя другими делами, пока iPhone 17 Pro генерирует ваш запрос, мы думаем, что многие пользователи начнут хвататься за голову, когда увидят эту медлительность. С другой стороны, сам факт того, что LLM на 400B работает на смартфоне, независимо от скорости, указывает на то, что с небольшим количеством дополнительных оптимизаций запуск больших языковых моделей на устройствах вполне возможен.

Что касается того, как это было достигнуто: вместо загрузки всей LLM в память, что было бы невозможно, поскольку iPhone 17 Pro оснащен всего 12 ГБ оперативной памяти LPDDR5X, Flash-MoE использует SSD-накопитель устройства для потоковой передачи данных непосредственно на графический процессор. Кроме того, «MoE» означает Mixture of Experts (Смесь экспертов), поэтому для каждого сгенерированного слова требуется лишь часть из этих 400B параметров.

Еще одно преимущество заключается в том, что вы получаете 100-процентную конфиденциальность при использовании локализованной LLM, получая ответы без активного подключения к Интернету, хотя аккумулятор iPhone 17 Pro будет сильно нагружен. Разработчики также прибегают к сжатым или «квантованным» версиям этих больших языковых моделей, но модель с 400 миллиардами параметров потребовала бы минимум 200 ГБ оперативной памяти, что делает невозможным ее запуск на iPhone 17 Pro.

Короче говоря, последняя демонстрация показывает, что если вы готовы пережить мучительный процесс генерации запросов со скоростью 0,6 токена в секунду, вы можете запустить LLM на 400B на смартфоне. С другой стороны, существует огромная разница между запуском большой языковой модели и ее активацией в пригодном для использования режиме.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Omar Sohail

Оригинал статьи

Apple

384,5 тыс интересуются