Найти тему
38,9 тыс подписчиков

«Яндекс» опубликовал исходный код алгоритма YaFSDP, который должен помочь бизнесу, разработчикам и исследователям ускорить обучение больших языковых моделей.


Например, если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU заняло бы не 66 дней, а 53

«Яндекс» опубликовал исходный код алгоритма YaFSDP, который должен помочь бизнесу, разработчикам и исследователям ускорить обучение больших языковых моделей.
Около минуты