83 подписчика
Новая исследовательская работа показывает, что у Apple есть практические решения технических проблем ИИ, которые другие компании, похоже, игнорируют. В частности, как использовать массивные языковые модули на устройствах с малым объемом памяти, таких как iPhone. Рассказывает издание AppleInsider.com.
Несмотря на заявления о том, что Apple отстает от индустрии в области генеративного ИИ, компания уже дважды показала, что она играет в долгую, а не спешит выпустить [очередной] клон ChatGPT. Первым знаком стала исследовательская работа, в которой предлагалась система ИИ под названием HUGS, генерирующая цифровые аватары людей.
Теперь, как сообщает VentureBeat, вторая исследовательская работа предлагает решения для развертывания огромных больших языковых модулей (LLM) на устройствах с ограниченной оперативной памятью, таких как iPhone.
Новая работа называется "LLM в один миг: эффективный вывод больших языковых моделей при ограниченной памяти". Apple утверждает, что "решает проблему эффективного использования LLM, превышающих доступную емкость DRAM, путем хранения параметров модели во флэш-памяти и их последующего вывода в DRAM по требованию".
Таким образом, вся LLM по-прежнему должна храниться на устройстве, но работа с ней в оперативной памяти может осуществляться через работу с флеш-памятью как с неким подобием виртуальной памяти, не отличающейся от того, как это делается в macOS.
"В рамках этой системы, основанной на работе с флэш-памятью, мы используем две основные техники", — говорится в статье. — "Во-первых, "оконное" стратегическое сокращение передачи данных за счет повторного использования ранее активированных нейронов... и, во-вторых, "объединение строк и столбцов", адаптированное к возможностям последовательного доступа к данным во флэш-памяти, увеличивает размер кусков данных, считываемых из флэш-памяти".
В конечном итоге это означает, что LLM практически любого размера могут быть установлены на устройствах с ограниченным объемом памяти или хранилища. Таким образом Apple сможет использовать функции ИИ в большем количестве устройств.
"Практические результаты нашего исследования заслуживают внимания", — говорится в статье. — "Мы продемонстрировали возможность запускать LLM, размер которых в два раза превышает объем доступной DRAM, добиваясь ускорения скорости вычислений в 4-5 раз по сравнению с традиционными методами загрузки в CPU и в 20-25 раз в GPU".
"Этот прорыв особенно важен для развертывания передовых LLM в средах с ограниченными ресурсами", — говорится далее, — "тем самым расширяя их применимость и доступность".
Результаты этого исследования доступны по ссылке. И в целом это прекрасный пример комплексного подхода к вопросу ИИ, когда прорабатывается (как надеемся) не только качество работы условного чат-бота, но и техническая реализация в разных средах.
2 минуты
22 декабря 2023