38,9 тыс подписчиков
«Яндекс» опубликовал исходный код алгоритма YaFSDP, который должен помочь бизнесу, разработчикам и исследователям ускорить обучение больших языковых моделей.
Например, если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU заняло бы не 66 дней, а 53
Около минуты
11 июня