С ростом популярности больших языковых моделей (LLM) нагрузка на облачные вычислительные системы значительно увеличилась, что требует поиска новых подходов к обработке запросов. Исследование, проведённое группой учёных, предлагает метрику «интеллект на ватт» (IPW), которая оценивает эффективность локальных систем, объединяя точность выполнения задач и энергопотребление. Это позволяет сравнивать производительность различных моделей и ускорителей. В рамках исследования было протестировано более 20 локальных языковых моделей на 8 аппаратных ускорителях, включая устройства от Nvidia, AMD и Apple. Для анализа использовался массив из миллиона реальных запросов, охватывающих задачи общения, рассуждений и проверки знаний. Результаты показали, что локальные модели способны успешно обрабатывать 88,7% запросов, а их эффективность (IPW) выросла в 5,3 раза с 2023 по 2025 год благодаря улучшениям в алгоритмах и аппаратных решениях. Одним из ключевых выводов стало то, что локальные ускорители, такие
Интеллект на ватт: новое исследование вводит метрику для оценки производительности LLM на локальных ускорителях
29 марта29 мар
9
2 мин