Добавить в корзинуПозвонить
Найти в Дзене

#РазборСбояBitrix24 #Битрикс24 #IT

#РазборСбояBitrix24 #Битрикс24 #IT Часть №6. Когда попытка ускорить восстановление добавила новые проблемы Когда мы дошли до смены IP-адреса, казалось, что сейчас просто аккуратно обойдём проблемный маршрут и снимем основную остроту. Но на практике этот этап оказался отдельным испытанием. В процессе смены IP-адреса в дата-центре возникла путаница по серверам и сетевым настройкам 😩 В какой-то момент вместо одного проблемного сервера мы получили уже два: Один перестал нормально подниматься после перезагрузки. По второму не сходились адреса между кабинетом, консолью и фактической доступностью. Дальше пошли часы ручной переписки, попытки завести консоль, зависшее состояние сервера, ручная настройка и постоянная проверка - не потеряли ли мы что-то ещё по пути. В итоге доступ удалось восстановить. После корректной смены IP-адреса проблемные маршруты снова начали открываться, серверы вернулись в рабочее состояние, и инцидент удалось закрыть. Но если честно, главный итог этих выходны

В ответ на пост

#РазборСбояBitrix24 #Битрикс24 #IT

Часть №6.

Когда попытка ускорить восстановление добавила новые проблемы

Когда мы дошли до смены IP-адреса, казалось, что сейчас просто аккуратно обойдём проблемный маршрут и снимем основную остроту.

Но на практике этот этап оказался отдельным испытанием.

В процессе смены IP-адреса в дата-центре возникла путаница по серверам и сетевым настройкам 😩

В какой-то момент вместо одного проблемного сервера мы получили уже два:

Один перестал нормально подниматься после перезагрузки.

По второму не сходились адреса между кабинетом, консолью и фактической доступностью.

Дальше пошли часы ручной переписки, попытки завести консоль, зависшее состояние сервера, ручная настройка и постоянная проверка - не потеряли ли мы что-то ещё по пути.

В итоге доступ удалось восстановить. После корректной смены IP-адреса проблемные маршруты снова начали открываться, серверы вернулись в рабочее состояние, и инцидент удалось закрыть.

Но если честно, главный итог этих выходных не в том, что мы «героически разгребли».

Пять выводов. Что теперь меняем.

1. Даже если проблема выглядит как внешний сбой платформы, нельзя долго жить в этой гипотезе.

Нужно быстро переходить к поуровневой диагностике.

2. Современная инфраструктура может ломаться не полностью, а частично. И это самый коварный сценарий: маршрут вроде есть, порт открыт, а рабочий запрос всё равно умирает.

3. Если у тебя много продуктов, аварийное решение само по себе ещё ничего не решает. Его нужно уметь быстро масштабировать на весь парк сервисов.

4. Нельзя держать слишком большую зависимость от одной площадки и одного типа сетевого маршрута. Поэтому дальше мы будем усиливать диверсификацию: распределять серверы по разным дата-центрам и локациям так, чтобы в одном месте не было слишком большой концентрации.

5. Такие выходные очень неприятны. Но именно они лучше всего показывают, где у тебя настоящая зрелость системы, а где пока только иллюзия устойчивости.

Далее отвечу на вопросы, который накопились в ходе публикаций постов.

Расширенная версия поста:

https://dozmi.ru/blog/bitrix24-incident-conclusions/

Канал Второй Мозг:

Веб-Блог / Телеграм / MAX