114 подписчиков
Вот уже 11 лет мы записываем подкасты про сети. И вы представляете себе, мы ни разу как-то основательно так и не поговорили про то, как эту самую сеть мониторить. За какими метриками хотим следить, какие аварии и где зажигать? Ну ладно, один раз-таки говорили, но это было так давно и не так уж и глубоко, что почему бы не повторить?
Разбираться будем на примере гиперскейлера и клауд-титана — Яндекса. Заодно поймём, насколько их опыт может быть релевантен для ребят попроще.
Кто:
- Кирилл Плетнёв. Сетевой инженер-разработчик в команде сетевой инфраструктуры Yandex Cloud
Про что:
- Что такое система мониторинга в широком смысле? Как могла бы выглядеть система мониторинга мечты? Что (какие метрики/состояния чего) мы хотим собирать? Как работать с системой?
- Парк OS. Blackbox/whitebox
- Интерфейсы. snmp/ssh/netconf/restconf/gnmi
- Готовые инструменты. Коробочные решения. Берём или пишем своё?
- Building blocks. Библиотеки, фрэймворки и что есть в мире opensource, что можно использовать и из чего можно собрать свою?
- Архитектура и дизайн системы. Компоненты системы/подсистемы. Масштабируемость/отказоустойчивость/надёжность
- Какой язык выбрать
- Команда мониторинга? Это что, не один человек? Сетевики, разработчики, SRE
Когда: 20.06.2023 19:00.
Свои вопросы гостю можно и нужно присылать сюда https://forms.gle/h8kYE1EQAgvWnpSA6
1 минута
17 июня 2023