Найти тему
48,1 тыс подписчиков

Новый метод может ускорить обучение языковых моделей ИИ в 300 раз


Исследователи из ETH Zurich разработали новую технику, которая может значительно повысить скорость работы нейронных сетей. Они продемонстрировали, что изменение процесса вывода может радикально сократить вычислительные требования. Это достигается путем замены традиционных слоев прямого распространения на так называемые быстрые слои прямого распространения, использующие условное умножение матриц. Эксперименты с моделью BERT показали сокращение вычислений на более чем 99%. Этот подход может применяться к другим языковым моделям, таким как GPT-3, и обеспечить более быструю и эффективную обработку запросов.

Быстрое внедрение метода уравняет шансы между компаниями, имеющими почти неограниченный доступ к вычислительным ресурсам, и ограниченными в них.

Новый метод может ускорить обучение языковых моделей ИИ в 300 раз  Исследователи из ETH Zurich разработали новую технику, которая может значительно повысить скорость работы нейронных сетей.
Около минуты