Найти тему
114 подписчиков

Комбо статья: интересное чтиво об устройстве большой инфры для обучения большой модели. InfiniBand, 511 хостов, 128 лифов/спайнов, рейды, GPU и вот как они это всё включали и заставляли работать как им надо.

И есть прям супер фраза, после которой не остаётся никаких сомнений почему NVIDIA сейчас гребёт деньги платиновыми лопатами: A rule of thumb for GPU clusters using the newest hardware: expect about 3% of machines to break every week.
Это жесть какая-то. Там они конечно вяло отмазываются что это не те три процента о которых вы подумали, но так-то покупая топовое железо от него ожидаешь более стабильной работы. Но другого железа у нас для вас нет. Кушайте, не обляпайтесь.
Около минуты