Добавить в корзинуПозвонить
Найти в Дзене

#РазборСбояBitrix24 #Битрикс24 #IT

Часть №4. Правильный диагноз ещё не решает проблему. Когда стало понятно, что проблема не в коде приложения как таковом, а в том, что часть IP-адресов из пула Битрикс24 фактически «битая» для нашего маршрута, ждать уже было нельзя. Клиентам не становится легче от того, что ты правильно поставил диагноз. Им нужно, чтобы сервис работал. Что пришлось строить под утро. Поэтому вместо спокойного разбора мы начали собирать аварийное решение. Логика была простой по смыслу, но сложной в реализации: 1. Научить систему определять проблемные адреса. 2. Не упираться в них. 3. Идти дальше через рабочие. Фактически нам пришлось на ходу делать свою механику проверки и перебора доступных точек входа. То, чего раньше в таком виде у нас не было, потому что раньше сама постановка задачи казалась избыточной. До ночи это была история про поиск причины. Под утро это уже была история про отказоустойчивость. После первого контура стало ясно: это только начало. После того как первый рабочий контур получи

#РазборСбояBitrix24 #Битрикс24 #IT

Часть №4.

Правильный диагноз ещё не решает проблему.

Когда стало понятно, что проблема не в коде приложения как таковом, а в том, что часть IP-адресов из пула Битрикс24 фактически «битая» для нашего маршрута, ждать уже было нельзя.

Клиентам не становится легче от того, что ты правильно поставил диагноз. Им нужно, чтобы сервис работал.

Что пришлось строить под утро.

Поэтому вместо спокойного разбора мы начали собирать аварийное решение.

Логика была простой по смыслу, но сложной в реализации:

1. Научить систему определять проблемные адреса.

2. Не упираться в них.

3. Идти дальше через рабочие.

Фактически нам пришлось на ходу делать свою механику проверки и перебора доступных точек входа. То, чего раньше в таком виде у нас не было, потому что раньше сама постановка задачи казалась избыточной.

До ночи это была история про поиск причины. Под утро это уже была история про отказоустойчивость.

После первого контура стало ясно: это только начало.

После того как первый рабочий контур получился, на этом всё не закончилось.

Стало понятно, что пользователю нужно не только восстановить работу, но и показать, что вообще происходит.

Поэтому следующим шагом мы пошли в сторону:

1. Отображения состояния.

2. Более понятного поведения приложения в таких сценариях.

3. Но тут нас ждала следующая проблема.

Одно дело - сделать обход для одного продукта.

И совсем другое - быстро перенести это решение на пол сотни приложений, которые развивались в разное время и с разной внутренней логикой 😭

В следующем посте расскажу, почему даже после найденного технического решения выходные не стали легче.

Расширенная версия поста:

https://dozmi.ru/blog/bitrix24-incident-workaround/

Канал Второй Мозг:

Веб-Блог / Телеграм / MAX