Добавить в корзинуПозвонить
Найти в Дзене
дата инженеретта

Мой первый инцидент

У нас есть процесс дежурств, где нужно следить за кластером, поднимать даги, помогать пользователям И вот уже вечер, все нормально, но внезапно выстрелил алерт. По одному стримингу сильно возросли лаги - накопилось много необработанных сообщений Я смотрю график - да, лаг прочитанных сообщений начал плавно возрастать, а потом улетел в бесконечность Я смотрю в кафку - данные приходят Я смотрю спарк приложение - оно running, тасочки выполняются Все работает, а данных нет 🤔🤔🤔 Детальнее углубляюсь в тасочки - все читается, но количество строк = 0 Смотрю на минимальный оффсет в кафке - а он сииильно дальше. И оффсеты, которые пытается обработать спарк, уже не существуют!😱 Данные лежат только за последние 1,5ч, а не за месяц и ускользают прямо на моих глазах! 😱😱 Я накидываю ресурсов, чтобы как можно быстрее догнать данные. Для апрува пингую человечка, который почти всегда онлайн. Через 15 минут начинают появляться сообщения в табличке, я вздыхаю спокойнее… 👀 Потом я анализирую

Мой первый инцидент

У нас есть процесс дежурств, где нужно следить за кластером, поднимать даги, помогать пользователям

И вот уже вечер, все нормально, но внезапно выстрелил алерт. По одному стримингу сильно возросли лаги - накопилось много необработанных сообщений

Я смотрю график - да, лаг прочитанных сообщений начал плавно возрастать, а потом улетел в бесконечность

Я смотрю в кафку - данные приходят

Я смотрю спарк приложение - оно running, тасочки выполняются

Все работает, а данных нет

🤔🤔🤔

Детальнее углубляюсь в тасочки - все читается, но количество строк = 0

Смотрю на минимальный оффсет в кафке - а он сииильно дальше. И оффсеты, которые пытается обработать спарк, уже не существуют!😱 Данные лежат только за последние 1,5ч, а не за месяц и ускользают прямо на моих глазах! 😱😱

Я накидываю ресурсов, чтобы как можно быстрее догнать данные. Для апрува пингую человечка, который почти всегда онлайн. Через 15 минут начинают появляться сообщения в табличке, я вздыхаю спокойнее…

👀 Потом я анализирую каунты по датам. Данных пришло в 20 раз больше, чем изначально закладывалось под этот топик

@data_engineerette