Найти в Дзене
DevvvOps с Риком

SRE — это не про инструменты. Это про страх. И как превратить его в систему

Ты думаешь, SRE — это когда ставишь Prometheus, Grafana, Alertmanager и называешь себя Site Reliability Engineer? Нет, дружище. SRE — это философия. И она начинается с одного чувства: СТРАХ. Страх, что: Хороший SRE не устраняет страх. Он строит систему, которая делает страх предсказуемым. Да, у тебя может быть: Но если ты не ответил на главные вопросы — инструменты ничего не спасут: → Это SLO (Service Level Objective).
Пример: «Мы обещаем 99.9% uptime в месяц = 43 минуты простоя в месяц — максимум». Без SLO — ты либо перестраховываешься (тратишь миллионы на 99.9999%), либо недостраховываешься (клиенты уходят). → Это пользовательский путь (user journey).
Мониторь транзакции, а не CPU. → Это postmortem без вины (blameless postmortem).
Хороший постмортем — не «кто виноват», а: «Как система позволила этой ошибке произойти?»
«Как сделать так, чтобы даже при такой же ошибке — сервис выжил?» Ручные операции — источник ошибок.
Если ты что-то делаешь вручную чаще одного раза — автоматизируй.
Д
Оглавление

Ты думаешь, SRE — это когда ставишь Prometheus, Grafana, Alertmanager и называешь себя Site Reliability Engineer?

Нет, дружище. SRE — это философия. И она начинается с одного чувства: СТРАХ.

Страх, что:

  • в 3 ночи зазвонит телефон,
  • база данных исчезнет,
  • твой деплой уронит всё на неделю,
  • клиенты уйдут, а босс — нет.
Хороший SRE не устраняет страх. Он строит систему, которая делает страх предсказуемым.

🔧 Инструменты — не цель. Они — следствие

Да, у тебя может быть:

  • Kubernetes,
  • Temporal,
  • OpenTelemetry,
  • HashiCorp Vault.

Но если ты не ответил на главные вопросы — инструменты ничего не спасут:

❓ Вопрос 1: Сколько сбоев мы можем себе позволить?

→ Это SLO (Service Level Objective).
Пример:

«Мы обещаем 99.9% uptime в месяц = 43 минуты простоя в месяц — максимум».

Без SLO — ты либо перестраховываешься (тратишь миллионы на 99.9999%), либо недостраховываешься (клиенты уходят).

❓ Вопрос 2: Кто действительно страдает, когда что-то ломается?

→ Это пользовательский путь (user journey).
Мониторь
транзакции, а не CPU.

  • Регистрация → вход → оплата → подтверждение.
    Если где-то ломается —
    это инцидент, даже если серверы «зелёные».

❓ Вопрос 3: Как мы учимся на ошибках?

→ Это postmortem без вины (blameless postmortem).
Хороший постмортем — не «кто виноват», а:

«Как система позволила этой ошибке произойти?»
«Как сделать так, чтобы даже при такой же ошибке — сервис выжил?»

🧠 SRE-мышление: 3 принципа

1. Автоматизация — не для удобства, а для надёжности

Ручные операции — источник ошибок.
Если ты что-то делаешь вручную
чаще одного раза — автоматизируй.
Даже если «это быстро». Особенно если «это быстро».

2. Отказ — не исключение. Он — норма.

Проектируй систему с учётом падений:

  • сети,
  • дисков,
  • сервисов,
  • целых зон доступности.

Если твоя система ломается, когда падает один под — она не распределённая, она хрупкая.

3. Измеряй то, что нельзя починить

Ты не можешь «починить» пользовательский опыт.
Но ты можешь
измерить его:

  • время загрузки страницы,
  • % успешных транзакций,
  • частота ошибок при вводе данных.
То, что не измеряешь — не контролируешь.

🛠️ Практика: как внедрить SRE, если у тебя «просто DevOps»

  1. Начни с одного сервиса — самого критичного.
  2. Определи 2–3 ключевых метрики UX (latency, error rate, throughput).
  3. Поставь SLO (например: p95 latency < 1s для 99% запросов).
  4. Настрой алерт на burn rate — не на порог, а на скорость исчерпания ошибок.
  5. Проводи postmortem после каждого инцидента — даже маленького.

💬 Рик напоследок:

«Я не боюсь, что что-то сломается.
Я боюсь, что сломается — и я не узнаю об этом первым.
Или узнаю, но не смогу починить за 5 минут.
Или починю — и никто не поймёт,
почему оно сломалось.
SRE — это когда ты превращаешь этот страх в чек-листы, автоматизацию и культуру.
А не в ночные кошмары».

Хочешь шаблон blameless postmortem или калькулятор SLO/burn rate?
→ Всё это — в ТГ
@devvvops_bot.
+
Если вам понравилось — почитайте про признаки что Ваш продакшен - бомба.
Только то, что реально используется в продакшене — без теории.

#SRE #DevOps #Надёжность #SLO #Инциденты #Postmortem #Инфраструктура #DevvvOps