Найти в Дзене
CAEshnik

В ответ на очередное падение сами знаете чего.

Принято считать, что сетевики не работают. Нет, ну то есть, стройка капексов - это святое, там когда Володя Мамай спонсировал линейщиков и кабельщиков живыми деньгами, обе стороны были довольны. Это и сегодня так. Кое-кто может даже вспомнить одни выборы, когда мечта творческой интеллигенции воплотилась в реальность за государственный счёт, а связисты и поработали и заработали. Но вот когда настаёт постоянная эксплуатация, средний сетевик не пойми, что делает с точки зрения начальника. Пинает на рабочем месте, прямо как писатель во фразе классика жанра: "ты всё равно целый день сидишь, постирал бы чего-нибудь". Поэтому настают оптимизации. От прошлых, когда Ростислав Владимирович Гэ пытался заменить бездельников на девятке таджиками, до нынешних, когда пару дней назад свежеупавшая контора отчиталась о замене искусственным интеллектом аж 40% разного рода девопсов. Не то, чтобы я ратовал за выплату зарплаты, как при коммунистической партии, без расчётов, как она появляется. Но как показы
Троица проблем на сети
Троица проблем на сети

Принято считать, что сетевики не работают. Нет, ну то есть, стройка капексов - это святое, там когда Володя Мамай спонсировал линейщиков и кабельщиков живыми деньгами, обе стороны были довольны. Это и сегодня так. Кое-кто может даже вспомнить одни выборы, когда мечта творческой интеллигенции воплотилась в реальность за государственный счёт, а связисты и поработали и заработали.

Но вот когда настаёт постоянная эксплуатация, средний сетевик не пойми, что делает с точки зрения начальника. Пинает на рабочем месте, прямо как писатель во фразе классика жанра: "ты всё равно целый день сидишь, постирал бы чего-нибудь".

Поэтому настают оптимизации. От прошлых, когда Ростислав Владимирович Гэ пытался заменить бездельников на девятке таджиками, до нынешних, когда пару дней назад свежеупавшая контора отчиталась о замене искусственным интеллектом аж 40% разного рода девопсов.

Не то, чтобы я ратовал за выплату зарплаты, как при коммунистической партии, без расчётов, как она появляется. Но как показывает практика, чаще всего, когда приходит пресловутая троица DNS, BGP, MTU, быстро становится известно, что тех, для кого эти имена хоть что-то значат, в штатке нет как нет. Поэтому пришло время для байки из реальности, которую вы все любите.

Работал я когда-то в одном магистральном операторе общесоюзного масштаба. А сеть была построена весьма интересно - loopback у всех был в зоне OSPF и все связи между backbone, distribution и access тоже. Даже на PtP было /30 (ага, поэтому). То есть, по включении очередного устройства, первым делом OSPF быстренько рассчитывал доступности для самих железок, служебные, так сказать. А потом включалось неторопливое iBGP на loopback и стероидах. И потихоньку, согласно настройкам, подсасывало верхи на места, а места отдало вверх.

На самом деле очень удобно. Многие операторы проходят тот странный этап роста, когда вроде бы соседа надо включить, но тому нужен eBGP, а у тебя на местности, как на грех, что-то дохленькое плюс какое-нибудь IGP (у меня был зоопарк с EIGRP и OSPF), которое если пустить в BGP, тому поплохеет и очень быстро. У нас так когда-то было с альма-матер в Ростове, когда трафик ходил конечно, но пришлось и нам и Олежику сделать некоторые сложные телодвижения.

Так что, решение было удобным. Обратной стороной медали было то, что нужны грамотные кадры, да и капексы на стройке тоже были заметные для того времени.

Но BGP коварен. Все мы любили читать Халаби на ночь, но гарантии нет как нет. Сижу я как-то в своём родном отделе, смотрю в графики текущих загрузок и вижу нечто удивительное - каналы Москва-Нижний ведут себя как будто там интернет скоро закончится, трафика с гулькин нос. А каналы на Нижний тогда уже были заметно широки, чай не Саратов, и поведение это удивляло.

Сходил я на магистральный рутер, поглядел, что там происходит, а там творится нагрузка процессора. И даже не одного. На том оборудовании, что когда-то считалось весьма передовым во всём мире, а теперь запрещено к поставке нам самим же производителем, формально был так называемый CEF, то есть пакет быстро-быстро уходил сторонними шинами мимо центрального процессора (в отличие от Linux-box) из одной дырки в другую. Но это в типовой ситуации. А тут явно аварийная. Очень похоже на то, что CEF сдох и пошёл подъём пакетов по стеку до центра, а там уже разруливание вниз. Отсюда нагрузка, отсюда и падение трафика.

Надо искать причины. Самый быстрый способ поиска проблем в связи - "смотри, что менялось". Я Константину Викторовичу сказал волшебное слово "Эскалация" и посоветовал спросить девятку, что там с BGP (благо письмо о правках пришло уже минут десять). Там подумали, шустро откатили фильтр, резетнули линк и нагрузка каналов пришла в норму, да и CEF зажил своей положенной жизнью.

Подробнее кмк было так. Сложно сочинённый процесс BGP работал нормально. Потом ему слегка поправили фильтр, и где-то в глубинах кода он отчего-то решил, что CEF теперь ему не нужен, будем жить как деды на processor switching. Отчего платформа и легла. Резет BGP в этой ситуации, конечно, жесткач, сразу отвалятся целые сегменты, а сходиться маршрутизация будет неторопливо. Но это лучше, чем сидеть и ждать, повторяя известное выражение Кузнечика капитану Титаренко.

В общем, я к чему? Берегите тех, кто знает BGP. И прочие MTU. Они вам пригодятся в аварийной ситуации. А про DNS я ещё как-нибудь напишу.

#связь