72 подписчика

Сводный сравнительный отчет по метрикам vmstat и iostat 2026-03-11 16:35.

14 марта14 мар

8 мин

Общая информация · Объект анализа: СУБД PostgreSQL 15.13. · Аппаратная платформа: 4 x Intel Xeon Platinum 8280L (192 ядра), 1008 GB RAM. · Исследуемые временные интервалы: o Тестовый отрезок (Базовый уровень): 2026-03-11 14:35 — 2026-03-11 15:35. o Инцидент (Проблемный период): 2026-03-11 15:35 — 2026-03-11 16:35. Список дисковых устройств Анализ проводился для следующих дисковых устройств, входящих в состав LVM для хранения данных СУБД и WAL: · vdg — физический диск, используемый для WAL (/wal) и раздела подкачки. · vdh, vdi, vdj, vdk — физические диски, объединенные в LVM-том /data для хранения данных СУБД. Сравнительный анализ граничных значений по дисковым устройствам В данном разделе сравниваются минимальные, медианные и максимальные значения ключевых метрик за тестовый период и период инцидента. · Устройство vdg (WAL): o Тест: Нагрузка на запись (w/s, wMB/s) стабильно низкая. Операции чтения практически отсутствуют. Утилизация устройства (device_util) минимальна (медиана ~5.9%).

Общая информация

· Объект анализа: СУБД PostgreSQL 15.13.

· Аппаратная платформа: 4 x Intel Xeon Platinum 8280L (192 ядра), 1008 GB RAM.

· Исследуемые временные интервалы:

o Тестовый отрезок (Базовый уровень): 2026-03-11 14:35 — 2026-03-11 15:35.

o Инцидент (Проблемный период): 2026-03-11 15:35 — 2026-03-11 16:35.

Список дисковых устройств

Анализ проводился для следующих дисковых устройств, входящих в состав LVM для хранения данных СУБД и WAL:

· vdg — физический диск, используемый для WAL (/wal) и раздела подкачки.

· vdh, vdi, vdj, vdk — физические диски, объединенные в LVM-том /data для хранения данных СУБД.

Сравнительный анализ граничных значений по дисковым устройствам

В данном разделе сравниваются минимальные, медианные и максимальные значения ключевых метрик за тестовый период и период инцидента.

· Устройство vdg (WAL):

o Тест: Нагрузка на запись (w/s, wMB/s) стабильно низкая. Операции чтения практически отсутствуют. Утилизация устройства (device_util) минимальна (медиана ~5.9%).

o Инцидент: Резкий рост нагрузки на запись. Медиана w/s выросла с ~373 до ~689, а wMB/s — с ~7.75 до ~16.0. Несмотря на рост, утилизация устройства остается низкой (медиана ~10.2%), что говорит о его высокой производительности и малом влиянии на общую картину.

· Устройства данных vdh, vdi, vdj, vdk:

o Тест: На всех четырех дисках наблюдается высокая и стабильная смешанная нагрузка. Медианные значения составляют:

§ r/s: ~12 200

§ w/s: ~500

§ Утилизация (device_util): ~87%

§ Глубина очереди (aqu-sz): ~2.0

o Инцидент: Нагрузка на диски данных значительно возрастает.

§ r/s: медиана увеличивается до ~13 500.

§ w/s: медиана удваивается, достигая ~1 100.

§ wMB/s: медиана возрастает с ~4.8 до ~10.5.

§ Утилизация остается на критическом уровне (медиана ~90%).

§ Глубина очереди незначительно растет (медиана ~2.5).

Вывод: В период инцидента произошло существенное увеличение нагрузки на диски данных (vdh-vdk), особенно на операции записи (рост в 2 раза). Диск WAL (vdg) также испытал рост нагрузки на запись, но остался далек от насыщения.

Сравнительный анализ относительных показателей iostat

Сравнение процентных показателей превышения пороговых значений.

· %util (загрузка устройства) свыше 50%:

o Тестовый период: vdg (0% — ОК), все диски данных (vdh-vdk) — 100% (ALARM). Проблема высокой утилизации существовала и до инцидента.

o Инцидент: vdg (0% — ОК), все диски данных (vdh-vdk) — 100% (ALARM). Проблема усугубилась ростом нагрузки, но не перешла в качественно новое состояние.

· Глубина очереди (aqu-sz) свыше 1:

o Тестовый период: vdg (0% — ОК), все диски данных (vdh-vdk) — 100% (ALARM).

o Инцидент: vdg (0% — ОК), все диски данных (vdh-vdk) — 100% (ALARM).

· Отклик на чтение/запись свыше 5мс:

o Оба периода и все устройства: 0% (ОК). Время отклика остается в пределах нормы (<1 мс), что указывает на то, что диски, несмотря на высокую загрузку, справляются с запросами без существенных задержек.

Вывод: Критическая загрузка дисков данных (vdh-vdk) и связанная с ней очередь являются хронической проблемой, которая присутствовала еще в тестовом периоде. В период инцидента нагрузка на запись выросла, но не привела к росту времени отклика, что говорит о наличии запаса по этому параметру.

1. СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ "КОРРЕЛЯЦИЯ VMSTAT и IOSTAT" по дисковым устройствам

1.1 КОРРЕЛЯЦИЯ VMSTAT и IOSTAT (wa и util)

· Тестовый период:

o Анализ по данной паре метрик в тестовом файле отсутствует (раздел 1.1 не заполнен для всех устройств).

· Инцидент:

o Для всех устройств обнаружена очень высокая и значимая корреляция между iostat/util и vmstat/wa (r > 0.74, p < 0.05).

o Качество регрессионных моделей оценивается от "удовлетворительного" до "хорошего" (R² от 0.56 до 0.71).

o Последствия: Влияние на процессы — ожидание ввода-вывода. Рост загрузки диска напрямую и предсказуемо ведет к росту процента времени ожидания IO процессором.

1.2 БУФЕРИЗАЦИЯ ВВОДА-ВЫВОДА (buff)

· Тестовый период:

o Диски данных (vdh-vdk): Обнаружена очень высокая корреляция между размером буферов (buff) и операциями чтения (r/s и rMB/s) (r > 0.94). Модели очень сильные (R² > 0.89).

o Диск WAL (vdg): Связь буферов с операциями записи слабая или умеренная (r ~0.3), модели непригодны.

o Вывод: В тестовом периоде буферы активно использовались при операциях чтения с дисков данных.

· Инцидент:

o Все диски: Корреляция буферов с операциями чтения и записи резко падает. На дисках данных связь с чтением становится слабой или отсутствует. Появляется умеренная связь с wps на WAL-диске (r=0.5), но модель остается слабой (R²=0.26).

o Вывод: В период инцидента механизм буферизации перестает эффективно работать для чтения. Память в буферах не коррелирует с дисковыми операциями, что может указывать на изменение характера нагрузки или нехватку буферов.

1.3 КЭШИРОВАНИЕ ВВОДА-ВЫВОДА (cache)

· Тестовый период:

o Диск WAL (vdg): Очень высокая корреляция кэша с операциями записи (wMB/s) (r=0.78, R²=0.60).

o Диски данных (vdh-vdk): Очень высокая корреляция кэша с операциями записи (wps и wMB/s) (r до 0.81). Модели качественные (R² до 0.65). Связь с чтением слабее.

o Вывод: Кэш страниц активно участвовал в процессах записи на всех дисках.

· Инцидент:

o Диск WAL (vdg): Корреляция кэша с записью (wMB/s) сохраняется (r=0.66, R²=0.44), но становится слабее.

o Диски данных (vdh-vdk): Корреляция кэша как с операциями чтения, так и с операциями записи становится очень высокой (r до 0.76). Модели, связывающие кэш с записью, оцениваются как удовлетворительные (R² до 0.57).

o Вывод: В период инцидента роль кэша возрастает. Наблюдается устойчивая связь между объемом кэша и интенсивностью дисковых операций, особенно записи. Это говорит о том, что кэш пытается компенсировать возросшую нагрузку, но, согласно выводу в отчете, делает это "не эффективно".

1.4 КОРРЕЛЯЦИЯ ОПЕРАЦИОННОЙ СКОРОСТИ И МЕТРИК ПРОИЗВОДИТЕЛЬНОСТИ ДИСКОВОГО УСТРОЙСТВА

· Тестовый период:

o Связь между операционной скоростью и пропускной способностью (MBps) слабая или умеренная (r < 0.47). Модели слабые.

o Вердикт системы: Нагрузка чувствительна к объему передаваемых данных, но четкой зависимости не выявлено.

· Инцидент:

o Диск WAL (vdg): Связь с MBps высокая (r=0.66, R²=0.44).

o Диски данных (vdh-vdk): Обнаружена очень высокая и значимая корреляция между операционной скоростью и пропускной способностью (MBps) (r > 0.73, R² ~0.54).

o Вердикт системы: ALARM. Производительность ограничена пропускной способностью дисков. Рост скорости передачи данных напрямую упирается в возможности дисковой подсистемы.

ИНДЕКС ПРИОРИТЕТА КОРРЕЛЯЦИИ (CPI)

· Тестовый период: Наивысшие приоритеты (CPI) имеют корреляции, связанные с буферами и чтением на дисках данных (vdh-vdk), а также с кэшем и записью.

· Инцидент: Наивысшие приоритеты смещаются.

o 1-е место: Корреляция wa и util (на всех дисках). Это подтверждает, что ожидание IO стало главным фактором.

o 2-е и 3-е место: Корреляции, связанные с пропускной способностью (cache/wMBps и "Операционная скорость"/MBps). Это подтверждает, что узким местом стала пропускная способность дисков.

Итог по разделу "СРАВНИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ КОРРЕЛЯЦИЯ VMSTAT и IOSTAT по дисковым устройствам"

В тестовом периоде наблюдалась высокая нагрузка на диски данных, но механизмы кэширования и буферизации работали иначе. В период инцидента характер взаимосвязей изменился: главным фактором стало прямое влияние загрузки диска на ожидание процессов (wa). Ключевым ограничивающим фактором стала пропускная способность дисков, о чем свидетельствует появление сильных корреляций с метриками MBps.

Проблемы инфраструктуры по итогам сравнительного анализа

1. Хроническая перегрузка дисков данных: Диски vdh, vdi, vdj, vdk постоянно работают с утилизацией более 80-90% и глубиной очереди более 2, что является критическим состоянием.

2. Усугубление проблемы в период инцидента: На фоне и без того высокой нагрузки произошел скачок операций записи (в 2 раза), что превратило пропускную способность дисков в главное узкое место.

3. Неэффективность буферизации: В момент пика нагрузки корреляция буферов с дисковым вводом-выводом пропала, что говорит о возможной нехватке буферов или неоптимальном характере нагрузки для их использования.

4. Рост зависимости от кэша: Увеличение корреляции кэша с дисковыми операциями в период инцидента указывает на то, что система пытается компенсировать недостаток дисковой производительности за счет памяти, но это не решает проблему полностью.

5. Отсутствие запаса пропускной способности: Система данных СУБД уперлась в физический предел скорости чтения/записи дисков.

Рекомендации по инфраструктуре по итогам сравнительного анализа

1. Анализ характера нагрузки: Определить, какие запросы/процессы генерируют столь высокий уровень операций записи (w/s и wMB/s) на дисках данных. Рассмотреть возможность их оптимизации, дедупликации или переноса.

2. Масштабирование дисковой подсистемы:

o Увеличение количества дисков: Добавить еще физических дисков в LVM-пул /data для распределения нагрузки и увеличения суммарной пропускной способности и IOPS.

o Апгрейд на более производительные диски: Рассмотреть замену текущих дисков на более скоростные модели (например, NVMe), если текущая конфигурация не позволяет обеспечить требуемую пропускную способность.

3. Тюнинг параметров СУБД: Пересмотреть настройки, влияющие на использование буферов и кэша при высоких нагрузках на запись.

o Проанализировать адекватность размера shared_buffers (установлен в 251 ГБ) и work_mem (1 ГБ) для текущей рабочей нагрузки.

o Проверить эффективность настроек контрольной точки (checkpoint_timeout, max_wal_size), так как рост записи на диски данных может быть связан с сбросом "грязных" страниц на диск.

4. Разделение нагрузки: Рассмотреть возможность физического разделения наиболее активных таблиц или индексов на разные дисковые пулы, если это позволяет структура данных и приложения.