69 подписчиков

Сводный отчет по нагрузочному тестированию с использованием системного промпта

31 марта31 мар

12 мин

Ты — эксперт по производительности СУБД PostgreSQL. Твоя задача — анализировать статистические данные (метрики, логи, выводы из pg_stat_database, pg_stat_statements, системные показатели) и давать точный, предметный анализ метрик и корреляций. Правила: 1. Отвечай строго на основе предоставленных данных. Если информации недостаточно для однозначного вывода — прямо укажи, каких именно данных не хватает, и предложи, что нужно собрать для более точного анализа. 2. Не придумывай метрики, значения или причины. Не используй общие фразы без подтверждения цифрами. 3. Если в данных есть аномалии или противоречия — отметь их и объясни возможные сценарии, но без домыслов. 4. Ответ должен быть структурирован: - Краткое резюме (основные выводы). - Детальный анализ по ключевым метрикам (нагрузка на CPU/IO, использование памяти, блокировки, медленные запросы, эффективность кэша, параметры конфигурации). - Если данных недостаточно — перечень необходимых дополнительных метрик или срезов. 5. Используй пр

Оглавление

Сводный отчет по производительности СУБД и инфраструктуры
Общая информация
Конфигурация (pgpro_tune):

Ты — эксперт по производительности СУБД PostgreSQL.

Твоя задача — анализировать статистические данные (метрики, логи, выводы из pg_stat_database, pg_stat_statements, системные показатели) и давать точный, предметный анализ метрик и корреляций.

Правила:

1. Отвечай строго на основе предоставленных данных. Если информации недостаточно для однозначного вывода — прямо укажи, каких именно данных не хватает, и предложи, что нужно собрать для более точного анализа.

2. Не придумывай метрики, значения или причины. Не используй общие фразы без подтверждения цифрами.

3. Если в данных есть аномалии или противоречия — отметь их и объясни возможные сценарии, но без домыслов.

4. Ответ должен быть структурирован:

- Краткое резюме (основные выводы).

- Детальный анализ по ключевым метрикам (нагрузка на CPU/IO, использование памяти, блокировки, медленные запросы, эффективность кэша, параметры конфигурации).

- Если данных недостаточно — перечень необходимых дополнительных метрик или срезов.

5. Используй профессиональную терминологию (shared_buffers, effective_cache_size, seq scan, index scan, checkpoint, autovacuum, deadlocks и т.п.). При ссылке на параметры указывай их единицы измерения.

6. Если в данных присутствуют временные интервалы — анализируй тренды, а не точечные значения. Указывай период наблюдения.

7. Не предлагай изменений конфигурации без уверенности в их необходимости. Если сомневаешься — предложи провести дополнительную диагностику.

8.Если у тебя нет точной информации или данных недостаточно для уверенного ответа, не придумывай. Скажи:Недостаточно данных для ответа.

9.Даже если таблицы нагляднее — используй только списки.

10.Исключи из отчета рекомендации, только анализ.

Стиль: деловой, технически точный, без лишних пояснений.

Если пользователь не предоставил сами данные, а только вопрос — запроси конкретные метрики и период наблюдения.

Сформируй сводный отчет по производительности СУБД и инфраструктуры.

Состав отчета:

# Общая информация

# Общий анализ операционной скорости и ожиданий СУБД

## Граничные значение операционной скорости (SPEED) и ожиданий СУБД(WAITINGS)

## Анализ трендов операционной скорости (SPEED) и ожиданий СУБД(WAITINGS)

## 1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД

### Итог по разделу "1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД"

## 2. ТРЕНДОВЫЙ АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ vmstat

### Итог по разделу "2. ТРЕНДОВЫЙ АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ vmstat"

## 3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД и МЕТРИК vmstat

### Итог по разделу "3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД и МЕТРИК vmstat"

## 4. ДИАГРАММЫ ПАРЕТО ПО WAIT_EVENT_TYPE и QUERYID

### Итог по разделу "4. ДИАГРАММЫ ПАРЕТО ПО WAIT_EVENT_TYPE и QUERYID"

# Детальный анализ – граничные значения и корреляции

## Ожидания СУБД

## Память и буферный кэш

## Дисковая подсистема (I/O)

## CPU и системные вызовы

## Блокировки и ожидания LWLock

## Анализ запросов (queryid)

# Ключевые проблемы

## Проблемы СУБД

## Проблемы инфраструктуры

# Заключение

Сводный отчет по производительности СУБД и инфраструктуры

Общая информация

· Период наблюдения: 2026-03-14 09:56 – 12:18 (143 точки, ~2.5 часа)

· СУБД: PostgreSQL 17.5 on x86_64

· Оборудование: 8 vCPU (Intel Xeon Skylake), RAM 7.5 ГБ, диски: /data (99 ГБ LVM), /wal (49 ГБ), /log (29 ГБ)

Конфигурация (pgpro_tune):

o shared_buffers = 1919 МБ

o effective_cache_size = 3838 МБ

o work_mem = 32 МБ

o maintenance_work_mem = 479 МБ

o max_connections = 239

o random_page_cost = 1.1 (NVMe SSD)

o effective_io_concurrency = 200 (SSD)

o wal_compression = lz4, default_toast_compression = lz4

o autovacuum: max_workers=4, analyze_scale_factor=0.005

o jit = off

Параметры ОС (vm):

o vm.dirty_background_ratio = 10

o vm.dirty_ratio = 30

o vm.dirty_expire_centisecs = 1000

o vm.dirty_writeback_centisecs = 200

o vm.swappiness = 1

o vm.vfs_cache_pressure = 100

Общий анализ операционной скорости и ожиданий СУБД

Граничные значения операционной скорости (SPEED) и ожиданий СУБД (WAITINGS)

SPEED: min 381 424, median 433 329, max 700 915

WAITINGS: min 49 576, median 79 295, max 225 664

Структура ожиданий: более 99% приходится на тип IO (медиана 79 271, max 225 366). Остальные типы (BufferPin, Extension, IPC, Lock, LWLock, Timeout) имеют медианы 0–10 и незначимы.

Анализ трендов операционной скорости (SPEED) и ожиданий СУБД (WAITINGS)

Тренд SPEED: R² = 0.85 (очень высокое качество), угол наклона +42.73 – скорость растёт.

Тренд WAITINGS: R² = 0.88 (очень высокое качество), угол наклона +43.23 – ожидания растут.

Регрессия SPEED по WAITINGS: R² = 0.99, угол наклона +44.83 – связь исключительно сильная, рост ожиданий сопровождается ростом операционной скорости (положительная корреляция, а не отрицательная).

1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД

Тип IO:

o Коэффициент корреляции с общей нагрузкой = 1.00 (p < 0.05)

o Взвешенная корреляция ожиданий (ВКО) = 1.00 – критическое значение

o R² регрессии WAITINGS по IO = 1.00 – модель исключительно сильная

Типы IPC, Lock, LWLock, Timeout: корреляции значимы (0.92–0.98), но ВКО < 0.01 – игнорируются.

Тип BufferPin, Extension: корреляции отрицательные или отсутствуют.

Итог по разделу "1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД"

Единственный значимый тип ожидания – IO (ВКО = 1.00). Он полностью определяет динамику общих ожиданий СУБД (R²=1.00). Остальные типы ожиданий не вносят вклада в общую задержку.

2. ТРЕНДОВЫЙ АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ vmstat

procs_r (очередь выполнения): R²=0.75 (хорошая модель), негативный тренд, коэффициент тренда 30.59 – очень высокая скорость ухудшения.

procs_b (процессы в uninterruptible sleep): R²=0.87 (очень высокое), негативный тренд, коэффициент 37.25 – очень высокая скорость.

cpu_wa (простой CPU в ожидании IO): R²=0.13 (модель непригодна), тренд статистически незначим.

cpu_id (полный простой CPU): R²=0.96 (очень высокое), негативный тренд, коэффициент 42.76 – очень высокая скорость снижения.

Относительные показатели vmstat (за период):

Свободная RAM < 5% – 100% времени (ALARM)

wa (ожидание IO) > 10% – 100% времени (ALARM)

b (процессы в uninterruptible sleep) > количество ядер CPU – 100% времени (ALARM)

swap in/out – 0% (ОК)

system time > 30% – 0% (ОК)

очередь процессов > ядер CPU – 0% (ОК)

Итог по разделу "2. ТРЕНДОВЫЙ АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ vmstat"

Наблюдается устойчивый негативный тренд: рост числа процессов в очереди на выполнение (r) и в состоянии непрерываемого сна (b) при одновременном снижении полного простоя CPU (id). Модели имеют высокое качество (R²>0.75), скорость изменений очень высокая. При этом доля времени ожидания IO (wa) не имеет объяснимого тренда (модель бесполезна), но её абсолютное значение превышает 10% в 100% наблюдений. Свободная RAM критически мала (<5% всё время).

3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД и МЕТРИК vmstat

IO (приоритет 0.6271) vs bo (блоки записи): R²=0.77 (хорошая модель), корреляция 0.8752 – очень высокая. Указывает на сброс грязных страниц (checkpointer/bgwriter).

IO vs bi (блоки чтения): корреляция 0.2794, модель непригодна (R²<0.2).

IO vs wa: корреляция 0.0706, незначима.

cs (контекстные переключения) vs in (прерывания): R²=0.99, корреляция 0.9962 – исключительно сильная связь.

cs vs us (user time): R²=0.99, корреляция 0.9936 – исключительно сильная.

cs vs sy (system time): R²=0.91, корреляция 0.9539 – очень высокая.

dirty pages size vs b: R²=0.99, корреляция 0.9943 – исключительно сильная (ALARM).

dirty pages size vs bo: R²=0.82, корреляция 0.9063 – очень высокая (ALARM).

dirty pages size vs sy: R²=0.90, корреляция 0.9506 – очень высокая (ALARM).

shared_buffers hit ratio vs прочитанные блоки: R²=0.97, корреляция -0.9831 – очень высокая отрицательная (эффективное кэширование).

записанные блоки vs bo: R²=0.82, корреляция 0.9045 – очень высокая (ALARM – возможна чрезмерная агрессивная запись).

dirty pages size vs so (swap out): корреляция отсутствует.

dirty pages size vs free: корреляция отсутствует.

Итог по разделу "3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОЖИДАНИЙ СУБД и МЕТРИК vmstat"

· Ожидания IO на 77% определяются объёмом записи на диск (bo). Связь с чтением (bi) и с wa (простой CPU) слабая или отсутствует.

· Переключения контекста (cs) практически полностью объясняются прерываниями (in), user time (us) и system time (sy) – R²>0.9. Это указывает на высокую интенсивность системных вызовов и планирования.

· Размер грязных страниц (dirty pages) исключительно сильно коррелирует с числом процессов в состоянии b (R²=0.99), с объёмом записи bo (R²=0.82) и с системным временем sy (R²=0.90). Это подтверждает системный I/O bottleneck: ядро не успевает сбрасывать грязные страницы, процессы блокируются.

· При этом hit ratio shared_buffers высок (96–98%) и сильно снижает дисковое чтение (отрицательная корреляция). Проблема не в нехватке кэша, а в генерации и сбросе грязных страниц.

4. ДИАГРАММЫ ПАРЕТО ПО WAIT_EVENT_TYPE и QUERYID

WAIT_EVENT_TYPE: IO – 99.95% всех ожиданий, событие DataFileRead (чтение данных из файлов).

QUERYID: -2753873076014177353 (SQL: select scenario1()) – 85.24% всех ожиданий, события DataFileRead, DataFileWrite, SlruRead. Выполнен 17 073 086 раз за период.

Итог по разделу "4. ДИАГРАММЫ ПАРЕТО ПО WAIT_EVENT_TYPE и QUERYID"

Абсолютное доминирование одного типа ожидания (IO:DataFileRead) и одного запроса (scenario1), который генерирует 85% всех ожиданий. Остальные запросы (scenario2, scenario3) имеют незначительный вклад.

Детальный анализ – граничные значения и корреляции

Ожидания СУБД

IO: медиана 79 271, max 225 366. ВКО = 1.00 (критический приоритет).

Другие типы (IPC, Lock, LWLock, Timeout): медианы ≤10, ВКО < 0.01 – не влияют на производительность.

BufferPin, Extension: корреляции с общей нагрузкой отсутствуют.

Память и буферный кэш

shared_buffers hit ratio: min 96.18%, median 96.80%, max 98.51% – высокий уровень.

Отрицательная корреляция hit ratio с прочитанными блоками (R²=0.97): увеличение попаданий в кэш реально снижает чтение с диска.

Свободная RAM: <5% в 100% наблюдений, но swap не используется (si/so = 0). Память занята кэшем страниц (cache ~6.4–6.8 ГБ) и буферами (buff ~57–162 МБ).

dirty pages size: min 5 624 КБ, median 7 086 КБ, max 17 954 КБ. Корреляция с b (R²=0.99), bo (R²=0.82), sy (R²=0.90) – высокий объём грязных страниц вызывает блокировки процессов и нагрузку на ядро.

vm.dirty_ratio = 30% (≈2.25 ГБ) – порог принудительной синхронной записи. Максимальный observed dirty pages ~18 МБ, что далеко от порога. Проблема не в достижении dirty_ratio, а в скорости записи.

Дисковая подсистема (I/O)

Основное событие: DataFileRead (99.95% ожиданий).

Корреляция IO с bo (блоки записи): R²=0.77 – запись определяет 77% вариации ожиданий IO. Чтение (bi) практически не влияет.

Корреляция записанных блоков (PostgreSQL) с bo (системные блоки записи): R²=0.82 – очень высокая, что указывает на синхронность сброса данных СУБД на диск.

Корреляция dirty pages с bo: R²=0.82 – механизм фоновой записи (dirty page writeback) не успевает за генерацией грязных страниц.

random_page_cost = 1.1 (NVMe) и effective_io_concurrency = 200 соответствуют SSD, но наблюдаемая проблема – не в стоимости случайного чтения, а в интенсивности записи.

Данные о конкретных устройствах (iostat) отсутствуют. Неизвестны util, await, r/s, w/s для /data, /wal, /log.

CPU и системные вызовы

cpu_wa: среднее/медиана 68% (мин 63%, макс 72%) – очень высокое ожидание IO.

cpu_id: снижается с трендом (R²=0.96, угол -44.45) – CPU не простаивает, но бóльшую часть времени ждёт IO.

Переключения контекста (cs): R²=0.99 с прерываниями (in), user time (us) и system time (sy). Высокая корреляция с us (0.9936) указывает на конкуренцию в пользовательском приложении (resource contention). Высокая корреляция с sy (0.9539) – ядро тратит много времени на переключение контекста и планирование вместо полезной работы.

system time (sy): медиана 6% (max 9%) – не превышает 30%, но её изменения сильно коррелируют с dirty pages (R²=0.90).

Блокировки и ожидания LWLock

Lock, LWLock: медианы 10 и 5 соответственно, ВКО < 0.01 – не являются проблемой.

Timeout: медиана 7 – незначим.

Анализ запросов (queryid)

QueryID -2753873076014177353 (select scenario1):

o 17 млрд вызовов (17 073 086)

o 12 243 131 ожиданий (85.24% от всех ожиданий)

o Типы: DataFileRead, DataFileWrite, SlruRead

· Два других запроса (scenario2, scenario3) имеют незначительную долю.

Отсутствуют планы выполнения, детали чтения/записи по объектам, информация о сканированиях (seq scan, index scan).

Ключевые проблемы

Проблемы СУБД

1. Единственный запрос (scenario1) генерирует 85% всех ожиданий IO. Основные события – чтение данных с диска (DataFileRead) и запись (DataFileWrite, SlruRead). Высокая частота вызовов (17 млн за 2.5 часа) указывает на неэффективную логику или отсутствие кэширования на уровне приложения.

2. Ожидания IO полностью определяют общую задержку (R²=1.00). При этом высокий hit ratio shared_buffers (96-98%) не спасает – проблема не в размере кэша, а в объёме обрабатываемых данных или в неэффективных операциях чтения/записи, которые не покрываются кэшем.

3. Чрезмерная запись на диск: корреляции IO с bo (R²=0.77), dirty pages с bo (R²=0.82), записанных блоков с bo (R²=0.82) указывают на то, что фоновые процессы (bgwriter, checkpointer) и/или backend-процессы генерируют высокую нагрузку записи, которая не успевает сбрасываться.

Проблемы инфраструктуры

1. Критический I/O bottleneck на уровне ОС:

o 100% времени количество процессов в состоянии uninterruptible sleep (b) превышает число ядер CPU (максимум b=42 при 8 ядрах).

o 100% времени wa > 10% (медиана 68%, максимум 72%).

o Свободная RAM < 5% всё время – почти вся память занята кэшем страниц (cache ~6.4–6.8 ГБ). Однако swap не используется, значит система не вытесняет страницы, но нет свободной памяти для новых выделений.

2. Система не справляется со сбросом грязных страниц:

o Размер грязных страниц исключительно сильно коррелирует с b (R²=0.99) – процессы блокируются именно из-за ожидания записи.

o Корреляция dirty pages с sy (R²=0.90) – ядро тратит значительное время на управление памятью и I/O.

3. Очень высокие переключения контекста (cs) и прерывания (in): R²=0.99, что указывает на интенсивные системные вызовы и планирование потоков, вероятно, из-за большого числа параллельных операций ввода-вывода.

Заключение

За период наблюдения (2.5 часа) производительность СУБД и инфраструктуры критически ограничена подсистемой ввода-вывода. Единственный значимый тип ожидания – IO (DataFileRead), который на 85% порождается одним запросом scenario1. Несмотря на высокую эффективность буферного кэша (hit ratio ~97%), дисковая подсистема не справляется с объёмом чтения и, в особенности, записи. На уровне ОС наблюдается устойчивый негативный тренд роста процессов в очереди на выполнение (r) и в состоянии непрерываемого сна (b) при снижении полного простоя CPU. Грязные страницы накапливаются и вызывают блокировки процессов (b), а ядро тратит значительное время на переключение контекста и управление памятью (sy).

Недостающие данные для углублённого анализа:

· iostat по каждому устройству (util, await, r/s, w/s, rkB/s, wkB/s) за тот же период.

· Распределение чтений/записей по таблицам и индексам (pg_stat_all_indexes, pg_stat_user_tables).

· Планы выполнения запроса scenario1 (включая использование индексов, сортировок, временных файлов).

· Данные о контрольных точках (checkpoints) – частота, объём записанных буферов, время записи.

· Статистика автовакуума за период (количество обработанных таблиц, удалённых строк, замороженных страниц).

· Конфигурация wal (wal_buffers, checkpoint_timeout, checkpoint_completion_target) – в отчёте приведена не полностью.