412 подписчиков
🎓 Открытый урок «Приручаем prometheus в масштабах: best practices из bigtech»
• 29 сентября, ПН
• 19:00 по мск
• 2 часа
Как подготовить метрики, системы и инженеров к росту, и не допустить ситуацию, в которой мониторинг становится проблемой, а не инструментом?
Любая система может сломаться на масштабе. Prometheus – не исключение. Метрики, которые помогают инженерам, превращаются в шум, алерты начинают прилетать сотнями, а дашборды грузятся десятки секунд. Причина не в prometheus, а в подходе к архитектуре и игнорировании проблем в observability-стеке, пока он еще хоть как-то справляется.
Что будет на уроке:
1️⃣ Как подготовить метрики, системы и инженеров к росту
2️⃣ Как не допустить точки невозврата, когда мониторинг перестает быть инструментом и становится проблемой
3️⃣ Что смотреть в prometheus, чтобы понять, когда он перестанет вывозить нагрузку
4️⃣ Проблемы роста кардинальности метрик и как они решаются при помощь relabeling
5️⃣ Оптимизация хранения и получения метрик, включая federation, sharding и remote write
6️⃣ Способы оптимизации запросов promQL на основе recording rules
7️⃣ Ошибки в запросах promQL, которые приводят к неправильной интерпретации метрик
8️⃣ Пути получения нешумных алертов на основе SLO и error budget
9️⃣ Паттерны предаггрегации метрик на стороне сервиса для получения более высокой точности измерений
Запись будет для всех, кто зарегистрировался на урок.
➡️ Записаться на урок: clck.ru/...brw
1 минута
26 сентября