«Яндекс» повысил эффективность процессов обучения больших языковых моделей (LLM) без снижения качества и масштабов разработок. Благодаря глубокой оптимизации инфраструктуры годовая экономия достигает 4,8 млрд руб. (в среднем 400 млн руб. в месяц). Ключевым технологическим решением стала разработанная компанией библиотека YCCL (Yet Another Collective Communication Library). Она позволила вдвое ускорить обмен данными между графическими процессорами при обучении нейросетей, снизить объем передаваемых при этом данных и перенести управление с графических на центральные процессоры. Библиотека YCCL масштабируется на крупные кластеры, ее аналоги есть только у Meta (организация признана экстремистской и запрещена в РФ) , AMD и китайских IT‑гигантов. Дополнительные улучшения дал переход на FP8 – формат с пониженной точностью вычислений, позволяющий быстрее обучать нейросети и тратить на это меньше ресурсов. Его применение ускорило обучение моделей на 30% и снизило коммуникации вдвое. «Яндекс»
«Яндекс» сэкономит 4,8 млрд рублей за счет оптимизации обучения нейросетей
18 февраля18 фев
9
1 мин