Добавить в корзинуПозвонить
Найти в Дзене
Postgres DBA

PG_HAZEL : Определение причин инцидента производительности СУБД

Определить причины снижения производительности СУБД
Начало инцидента 07:05.
Характерные признаки в ходе инцидента - рост утилизации CPU и значений cpu iowait.
Результаты отчета
Оглавление

ℹ️Работы по проекту "PG_HAZEL"-завершены.Исследования продолжены в проекте PG_EXPECTOℹ️

Зри в корень ! Наука - поможет. Если есть инструмент.
Зри в корень ! Наука - поможет. Если есть инструмент.

Задача

Определить причины снижения производительности СУБД

Инцидент производительности СУБД

Дашборд мониторинга Zabbix
Дашборд мониторинга Zabbix

Начало инцидента 07:05.

Характерные признаки в ходе инцидента - рост утилизации CPU и значений cpu iowait.

Используемый отчет - make_summary_with_sql.sh

Результаты отчета

Аномалии(аварийные индикаторы)

-3

Результат

ОК

Операционная скорость и корреляции ожиданий СУБД

Сильная корреляция с типом ожиданий IO
Сильная корреляция с типом ожиданий IO

-5
-6
-7

Результат

Наибольшая корреляция между ожиданиями СУБД и типом ожиданий IO.

Корреляция IO и метрик vmstat

-8

Результат

OK

Статистический анализ метрик iostat для файловой системы /data

-9

Результат

Проблемы производительности IO для устройства , для файловой системы /data:

-10
-11
  • ALARM: более 50% наблюдений - Отклик на запись свыше 5мс

Признак не эффективного использование памяти для снижения нагрузки на диск:

  • ALARM : Очень высокая корреляция (buff - r/s)
  • ALARM : Очень высокая корреляция (buff - w/s)
  • ALARM : Очень высокая корреляция (buff - wMB/s)

Статистический анализ метрик iostat для файловой системы /wal

-12

Результат

Проблемы производительности IO для устройства , для файловой системы /wal:

-13
-14
  • ALARM: более 50% наблюдений - Отклик на запись свыше 5мс

Признак не эффективного использование памяти для снижения нагрузки на диск:

  • ALARM : Очень высокая корреляция (buff - w/s)
  • ALARM : Очень высокая корреляция (buff - wMB/s)

Чек-лист IO

-15

Результат

ОК

Чек-лист CPU

-16

Результат

Высокое значение переключений контекста.

Чек-лист RAM

-17

Результат

  • WARNING: 25-50% наблюдений - свободная RAM менее 5%
-18

Результат статистического анализа производительности , ожиданий СУБД и метрик vmstat+iostat

Снижение производительности и рост ожиданий типа IO сопровождается ростом времени ожидания записи для устройств, используемых для файловых систем /data и /wal .

Продолжение