Компания Google представила в списке рассылки разработчиков ядра Linux реализацию механизма Device memory TCP (devmem TCP), позволяющего напрямую по сети передавать данные из памяти одних устройств в память других устройств, без промежуточного копирования этих данных в буферы, размещённые в системной памяти хоста. Реализация пока находится на стадии RFC, т.е. выставлена для обсуждения и рецензирования сообществом, но не оформлена для передачи в основной состав ядра Linux. Ожидается, что Device memory TCP позволит существенно поднять эффективность взаимодействия в кластерах и распределённых системах машинного обучения, использующих дополнительные платы-ускорители. Применение ускорителей машинного обучения приводит к существенному увеличению объёма информации, передаваемой в процессе обучения моделей из хранилища в память GPU/TPU. В некоторых случаях тренировка моделей машинного обучения может расходовать лишь 50% доступных вычислительных ресурсов TPU, и одним из способов и
Google предложил Device Memory TCP для сетевой передачи данных между устройствами
14 июля 202314 июл 2023
16
2 мин