Большой компьютер = большие возможности, верно? Например, можно климатическую модель всей Земли построить, или микробиом описать. Но с большими возможностями также приходят и большие проблемы, и имя этим проблемам - MTBF. Ведь есть же статистика, великая и ужасная. Допустим, мы построим суперкомпьютер из очень хороших и надёжных узлов. У каждого из которых MTBF = 100 лет. Если в машине 100 000 таких узлов, то ошибки будут возникать каждые 9 часов. Согласно той же статистике, среднее время работы HPC приложения меньше девяти часов, так что всё ок. А если в машине этих узлов 1 000 000? Тогда ошибки будут возникать каждые 53 минуты. А сколько мы их исправлять будем? Это не моя теория, а Донгарры с соавторами. А вот табличка из практики: Т.е. на практике среднее время наработки на отказ в 9 часов (даже чуть меньше, 8.93 ч.) мы уже прекрасно наблюдаем. Пару дней назад я писал про облачный дата-центр DUG McCLOUD c 40 000 узлами. Как думаете, какой у него MTBF? Судя по тому, что в о