Во вторник 18 ноября многие из наших любимых сервисов перестали работать. Причиной всему было падение Cloudflare, и об этом они кстати написали достаточно добротный отчет. Однако нас как QA-инженеров (и не только) интересует не столько сам факт падения, сколько выводы, которые мы можем из него сделать: 1. Без нормального observability никуда. Что делали в Cloudflare? Вместо починки бага - отражали несуществующую DDoS-атаку. Казалось бы, перепутать реальный баг и атаку сложно. Но когда метрики и алерты настроены так, что вводят в заблуждение, именно такие ошибки совершаются снова и снова. Запуск любой фичи должен требовать не только проработки пользовательских сценариев, но и тщательного внимания к тому, что остаётся за кадром. Область, о которой часто забывают даже внутри команды разработки - какие метрики собираем, что считаем не нормальным поведением, когда и как должны срабатывать алерты. Сюда же относятся и остальные «невидимые» части продукта: тесты, пайплайны, требования и други
Cloudflare и падение 18 ноября. Какие выводы можем сделать?
21 ноября 202521 ноя 2025
1
1 мин