Cloudflare и падение 18 ноября. Какие выводы можем сделать?
Во вторник 18 ноября многие из наших любимых сервисов перестали работать. Причиной всему было падение Cloudflare, и об этом они кстати написали достаточно добротный отчет. Однако нас как QA-инженеров (и не только) интересует не столько сам факт падения, сколько выводы, которые мы можем из него сделать: 1. Без нормального observability никуда. Что делали в Cloudflare? Вместо починки бага - отражали несуществующую DDoS-атаку. Казалось бы, перепутать реальный баг и атаку сложно. Но когда метрики и алерты настроены так, что вводят в заблуждение, именно такие ошибки совершаются снова и снова...