Компания Apple проводит эксперименты с использованием больших языковых моделей (LLM) на флэш-памяти, чтобы интегрировать искусственный интеллект в свои устройства, такие как смартфоны и ноутбуки. Разработчики Apple сталкиваются с трудностями, так как LLM требуют много вычислительных ресурсов и памяти DRAM для хранения весов моделей. Однако компания предлагает новый подход, который заключается в хранении LLM на флэш-памяти и извлечении весов только при необходимости. Этот метод позволяет снизить объем данных, передаваемых с флэш-памяти, и увеличить скорость чтения данных. Apple также использовала техники "оконного режима" и "объединения строк и столбцов", чтобы запускать модели, которые вдвое или более превышают доступный объем памяти DRAM, с значительным увеличением скорости вычислений. Эти инновации открывают путь для вывода LLM на устройства с ограниченной памятью, такие как SoCs, и позволяют сохранить и использовать LLM с несколькими миллиардами параметров, несмотря на недостаток DRAM. В целом, Apple стремится улучшить пользовательский опыт и повысить эффективность работы с помощью использования больших языковых моделей.