Радио «Виктор»: толерантность к плохому Есть тенденция, которая убивает команды и процессы не громко, а почти незаметно. Это рост толерантности к плохому. Сначала — мелочь: ну не проверили новый эндпоинт перед выкладкой, ничего страшного, ведь маленький кусочек, да и прокатило. Потом — баг, но «не страшный», и всё равно через неделю новый релиз, никто не заметит. В какой-то момент ловите себя на том, что «катим всё, что катится». А дальше — точка невозврата. И проблема даже не в баге или качестве кода, а в том, что команда уже не чувствует, что хорошо, а что плохо. Привыкла. Когда-то у моей команды начал подвисать коннект к базе. В первый раз порестартили — полечилось. Не успел я оглянуться, как оказалось, что инженер уже рестартит дважды в день — я же в первый раз разрешил. Потом кто-то поставил автоматический роллинг-рестарт каждые 10 минут — и проблема как будто исчезла. До тех пор, пока сервис не встал «колом». Задним умом легко сказать, что нужен был хороший постмортем. И я, кон