114 подписчиков

Вот уже 11 лет мы записываем подкасты про сети. И вы представляете себе, мы ни разу как-то основательно так и не поговорили про то, как эту самую сеть мониторить. За какими метриками хотим следить, какие аварии и где зажигать? Ну ладно, один раз-таки говорили, но это было так давно и не так уж и глубоко, что почему бы не повторить?

Разбираться будем на примере гиперскейлера и клауд-титана — Яндекса. Заодно поймём, насколько их опыт может быть релевантен для ребят попроще.

Кто:

- Кирилл Плетнёв. Сетевой инженер-разработчик в команде сетевой инфраструктуры Yandex Cloud

Про что:

- Что такое система мониторинга в широком смысле? Как могла бы выглядеть система мониторинга мечты? Что (какие метрики/состояния чего) мы хотим собирать? Как работать с системой?

- Парк OS. Blackbox/whitebox

- Интерфейсы. snmp/ssh/netconf/restconf/gnmi

- Готовые инструменты. Коробочные решения. Берём или пишем своё?

- Building blocks. Библиотеки, фрэймворки и что есть в мире opensource, что можно использовать и из чего можно собрать свою?

- Архитектура и дизайн системы. Компоненты системы/подсистемы. Масштабируемость/отказоустойчивость/надёжность

- Какой язык выбрать

- Команда мониторинга? Это что, не один человек? Сетевики, разработчики, SRE

Когда: 20.06.2023 19:00.

https://linkmeup.ru/blog/2365/

Свои вопросы гостю можно и нужно присылать сюда https://forms.gle/h8kYE1EQAgvWnpSA6

1 минута

17 июня 2023