Исследователи из Калифорнийского университета в Санта-Крузе совершили достижение в области эффективности искусственного интеллекта, разработав метод, позволяющий управлять большой языковой моделью с миллиардом параметров, используя всего 13 ватт мощности – столько же, сколько потребляет современная светодиодная лампочка. Напротив, GPU, обычно используемые в центрах обработки данных для задач LLM, потребляют около 700 ватт.
Исторически сложилось так, что в области ИИ основное внимание уделялось достижению первых результатов, а показатели эффективности не учитывались. Стремясь изменить эту парадигму, исследователи отказались от интенсивного процесса, известного как матричное умножение, который включает в себя преобразование слов в числовые значения, хранение их в матрицах и выполнение умножений для создания языка – процесс, печально известный как требовательный к аппаратному обеспечению.
Исследователи применили инновационный подход, сделав все числа в матрицах нейронной сети троичными, то есть они могут быть только -1, 0 или 1. Это существенное изменение, вдохновленное документом Microsoft, заменяет умножение на сложение, что значительно снижает требования к оборудованию.
Кроме того, команда разработала специальное аппаратное обеспечение с использованием легко адаптируемой схемы, известной как полевая программируемая вентильная матрица.
Нейронная сеть, работающая на этом оборудовании, продемонстрировала более чем 50-кратное повышение эффективности по сравнению с обычными системами. Важно, что при этом она сохранила производительность, сравнимую с топовыми языковыми моделями.