48,1 тыс подписчиков
Новый метод может ускорить обучение языковых моделей ИИ в 300 раз
Исследователи из ETH Zurich разработали новую технику, которая может значительно повысить скорость работы нейронных сетей. Они продемонстрировали, что изменение процесса вывода может радикально сократить вычислительные требования. Это достигается путем замены традиционных слоев прямого распространения на так называемые быстрые слои прямого распространения, использующие условное умножение матриц. Эксперименты с моделью BERT показали сокращение вычислений на более чем 99%. Этот подход может применяться к другим языковым моделям, таким как GPT-3, и обеспечить более быструю и эффективную обработку запросов.
Быстрое внедрение метода уравняет шансы между компаниями, имеющими почти неограниченный доступ к вычислительным ресурсам, и ограниченными в них.
Около минуты
27 ноября 2023