200,5 тыс подписчиков

Интеллект на ватт: новое исследование вводит метрику для оценки производительности LLM на локальных ускорителях

29 марта29 мар

2 мин

С ростом популярности больших языковых моделей (LLM) нагрузка на облачные вычислительные системы значительно увеличилась, что требует поиска новых подходов к обработке запросов. Исследование, проведённое группой учёных, предлагает метрику «интеллект на ватт» (IPW), которая оценивает эффективность локальных систем, объединяя точность выполнения задач и энергопотребление. Это позволяет сравнивать производительность различных моделей и ускорителей. В рамках исследования было протестировано более 20 локальных языковых моделей на 8 аппаратных ускорителях, включая устройства от Nvidia, AMD и Apple. Для анализа использовался массив из миллиона реальных запросов, охватывающих задачи общения, рассуждений и проверки знаний. Результаты показали, что локальные модели способны успешно обрабатывать 88,7% запросов, а их эффективность (IPW) выросла в 5,3 раза с 2023 по 2025 год благодаря улучшениям в алгоритмах и аппаратных решениях. Одним из ключевых выводов стало то, что локальные ускорители, такие

В рамках исследования было протестировано более 20 локальных языковых моделей на 8 аппаратных ускорителях, включая устройства от Nvidia, AMD и Apple. Для анализа использовался массив из миллиона реальных запросов, охватывающих задачи общения, рассуждений и проверки знаний. Результаты показали, что локальные модели способны успешно обрабатывать 88,7% запросов, а их эффективность (IPW) выросла в 5,3 раза с 2023 по 2025 год благодаря улучшениям в алгоритмах и аппаратных решениях.

Одним из ключевых выводов стало то, что локальные ускорители, такие как Apple M4 Max, уже могут обеспечивать интерактивную обработку запросов, хотя их эффективность пока что уступает облачным решениям. Например, ускорители Nvidia B200 и SambaNova SN40L демонстрируют на 40-78% более высокую эффективность по сравнению с локальными устройствами. Тем не менее, локальные системы позволяют перераспределить до 71,3% запросов, снижая энергопотребление на 60-80% при использовании гибридного подхода.

Исследование также показало, что локальные модели особенно эффективны для творческих и гуманитарных задач, где их точность превышает 90%. Однако в технических областях, таких как архитектура и инженерия, точность падает до 68%, что подчёркивает необходимость дальнейших улучшений. Тем не менее, даже в этих условиях локальные модели способны обрабатывать значительную часть запросов, снижая нагрузку на облачные системы.

Важным аспектом работы стало внедрение маршрутизации запросов между локальными и облачными системами. Оптимальное распределение запросов позволяет достичь значительной экономии ресурсов без потери качества ответов. Например, при точности маршрутизации 80% энергопотребление снижается на 64%, а затраты — на 59%.

Кроме того, исследование подчёркивает важность дальнейшего развития локальных ускорителей. Хотя они уже достигли значительного прогресса, облачные решения сохраняют преимущество благодаря специализированным аппаратным оптимизациям. Это создаёт потенциал для будущих улучшений локальных систем, которые смогут ещё больше сократить разрыв в эффективности.

Результаты подчёркивают потенциал локальных языковых моделей как дополнения к облачным системам. С дальнейшим развитием архитектур моделей и ускорителей эффективность локальных систем будет только расти, что позволит перераспределить ещё большую часть нагрузки. Авторы работы также выпустили открытый инструмент для оценки IPW, чтобы стимулировать дальнейшие разработки в этой области.

Бизнес и финансы

1,13 млн интересуются