Яндекс разработал и выложил в открытый доступ инструмент YaFSDP, который призван ускорить обучение больших языковых моделей (LLM) и сократить расходы на графические процессоры (GPU). Обучение на нескольких GPU может значительно ускорить процесс, но не все так просто! Какие сложности могут возникнуть? Почему важно оптимизировать память при обучении языковых моделей ?Давайте разберемся! Память потребляют: Выходит, единственное, что занимает память, это активации. Из этого следует такое решение: Чекпоинт активаций! 1) Сохраняем только активации между блоками трансформера. 2) Перевычисляем их на backward, экономя память (до 5 GB). 3) Но теряем 25% времени на обучение. Подробнее про YaFSDP рассказал Михаил Хрущев NLP developer in Yandex в этой статье : https://habr.com/ru/companies/yandex/articles/817509/
Яндекс выпустил YaFSDP: инструмент для ускорения обучения больших языковых моделей
8 июля 20248 июл 2024
1
1 мин