72 подписчика

PostgreSQL + DeepSeek: как анализ hit ratio и wait events раскрыл причину аномальной утилизации диска

3 дня назад3 дня назад

36 мин

Сравнительный анализ двух периодов эксплуатации СУБД PostgreSQL на основе данных pgpro_pwr: количественная оценка деградации буферного кеширования, профилирование событий ожидания и верификация гипотезы о недостаточности неизменной конфигурации при возросшей нагрузке Max: PG_EXPECTO GitHub - Комплекс pg_expecto для статистического анализа производительности и нагрузочного тестирования СУБД PostgreSQL Philosophical_instruction_BETA_v5.1.md - Философское ядро + процедурный скелет автономного AI-агента с встроенной самопроверкой. Эпистемология, этика честности, научный метод, think pipeline (CoVe, ToT, Pre-Mortem, Red Teaming, 7 Грехов). Максимальная правдивость, защита от галлюцинаций и prompt injection. GitFlic - pg_expecto - статистический анализ производительности и ожиданий СУБД PostgreSQL Глоссарий терминов | Postgres DBA | Дзен В практике эксплуатации высоконагруженных систем на базе PostgreSQL нередки ситуации, когда деградация производительности наступает без явных изменений конф

Оглавление

Предисловие
Предыдущая работа по теме
Задача

Max: PG_EXPECTO

GitHub - Комплекс pg_expecto для статистического анализа производительности и нагрузочного тестирования СУБД PostgreSQL

Philosophical_instruction_BETA_v5.1.md - Философское ядро + процедурный скелет автономного AI-агента с встроенной самопроверкой. Эпистемология, этика честности, научный метод, think pipeline (CoVe, ToT, Pre-Mortem, Red Teaming, 7 Грехов). Максимальная правдивость, защита от галлюцинаций и prompt injection.

GitFlic - pg_expecto - статистический анализ производительности и ожиданий СУБД PostgreSQL

Глоссарий терминов | Postgres DBA | Дзен

Предисловие

В практике эксплуатации высоконагруженных систем на базе PostgreSQL нередки ситуации, когда деградация производительности наступает без явных изменений конфигурационных параметров или версий программного обеспечения. Классической «ловушкой» выступает постепенный рост объёмов обрабатываемых данных и количества запросов — при том, что администратор продолжает полагаться на некогда оптимальные настройки shared_buffers, work_mem и effective_cache_size, которые перестают соответствовать текущему рабочему набору. Диагностика таких состояний осложняется отсутствием явных ошибок или сбоев: система продолжает функционировать, но время отклика запросов увеличивается, а утилизация диска необъяснимо растёт. В представленном исследовании предпринята попытка последовательного, опирающегося на количественные метрики, выявления первопричины подобной аномалии — на примере двух временных срезов, зафиксированных отчётами pgpro_pwr.

Предыдущая работа по теме

Анализ планов выполнения SQL запросов PostgreSQL с помощью DeepSeek и философской инструкции: кейс снижения hit ratio с 93,5% до 81,8%

Postgres DBA26 апреля

Задача

В рамках продолжения работ по исследованию проблемы

Upgrade PostgreSQL 15→17 : анализ проблемных SQL запросов

Postgres DBA21 апреля

Проанализировать текущий статус по аномальной утилизации диска, используемого для файловой системы PGDATA.

Входные данные для анализа

pgpro_pwr.165-166.clear.html - отчет pgpro_pwr 27.04.2026 09:00-10:00
pgpro_pwr.170-171.clear.html - отчет pgpro_pwr 27.04.2026 14:00-15:00

Коллекция промптов для нейросети DeepSeek (на русском языке), предназначенных для анализа и оптимизации производительности СУБД PostgreSQL.

deepseek-pg-perf-prompts

1.Сравнительный анализ профиля нагрузки "Load distribution"

Аналитический отчёт по данным отчётов pgpro_pwr за периоды 165–166 и 170–171

Периоды наблюдения:

период 1 – отчёт 165–166;
период 2 – отчёт 170–171.
Источники данных: table.result.txt, load_distribution.1.txt, load_distribution.2.txt, ТаблицаG.25.txt, ТаблицаG.78.txt.

1. Ключевые отличия конфигурационных параметров СУБД между отчётами

Согласно table.result.txt, все параметры конфигурации, зафиксированные в разделе Cluster settings отчётов pgpro_pwr, идентичны для периодов 165–166 и 170–171. Расхождений, отсутствующих или различающихся значений не выявлено.

Уровень-1 (Подтверждено данными): конфигурационные параметры не изменялись.

2. Ключевые отличия показателей «Load distribution»

Ниже приведены существенные различия в метриках нагрузки по базам данных (основные направления изменений). Приведены только те базы, где динамика значима или где наблюдаются интересные явления.

DB-4 (доминирующая по нагрузке)

Total time вырос с 6 228 с до 26 856 с (×4,3).
Executed count увеличился с 4,74 млн до 6,61 млн (+39%).
Среднее время выполнения запроса (Total time / Executed count):
период 1: ≈ 1,31 мс,
период 2: ≈ 4,06 мс (рост в 3,1 раза).
I/O time увеличился с 2 521 с до 17 606 с (×7,0); доля I/O в общем времени выросла с 40,5% до 65,6% (Уровень‑1).
Blocks fetched (сумма shared_blks_hit + shared_blks_read) вырос на 82% (с 713,7 млн до 1,3 млрд).
Shared blocks read увеличился с 47,6 млн до 107,1 млн (+125%).
Shared blocks dirtied вырос с 869 тыс. до 1,57 млн (+80%).
Shared blocks written резко возрос с 17,6 тыс. до 478,6 тыс. (×27).
WAL generated вырос с 4,8 млрд до 7,9 млрд байт (+65%).
Temp & local blocks written увеличился с 1,32 млн до 2,39 млн (+82%); Temp & local blocks read – с 249 тыс. до 824 тыс. (+231%).
Invalidation messages sent вырос с 1,06 млн до 3,27 млн (+207%).
⚠️Cache resets возрос с 1 до 375 (массовые сбросы разделяемого кеша).

DB-5

Total time вырос с 18,1 с до 60,9 с (×3,4).
Executed count увеличился на 35% (с 111 206 до 150 575).
Среднее время запроса возросло с 0,16 мс до 0,40 мс (×2,5).
Shared blocks read подскочил с 16,6 тыс. до 241,2 тыс. (×14,5) – необычно сильный рост при умеренном увеличении количества запросов.
I/O time вырос с 2,4 с до 27,6 с (×11,3).
Invalidation messages возросли с 4,1 тыс. до 13,5 тыс. (+234%).
⚠️Cache resets появились: 0 → 3.

DB-8

⚠️Executed count резко увеличился с 28 до 10 002; при этом Total time вырос с 1,35 с до 10,4 с, среднее время запроса снизилось с 48 мс до 1,0 мс – характер нагрузки изменился с единичных тяжёлых запросов на множество лёгких.
I/O time увеличился с 0,03 с до 6,31 с.
Появились запись WAL (0 → 300 тыс. байт), инвалидации (0 → 408), минимальная модификация shared-блоков (dirtied: 0 → 195).

DB-7

Умеренный рост большинства метрик (Total time +35%, I/O time +64%, Blocks fetched +8,8%) на фоне практически неизменного Executed count (57 в обоих периодах). Среднее время запроса выросло с 0,42 с до 0,57 с.
Temp-блоки незначительно снизились.

DB-6 и DB-3

Показатели практически не изменились, находятся на минимальном уровне. Существенного влияния на общую картину не оказывают.

3. Гипотеза о влиянии конфигурационных параметров на показатели «Load distribution»

Основная гипотеза

☑️Поскольку конфигурация не менялась, изменения метрик нагрузки не являются следствием целенаправленной перенастройки СУБД.

Наблюдаемая картина (рост среднего времени выполнения, значительное увеличение I/O и временных блоков, учащение сбросов кеша) объясняется тем, что фиксированная конфигурация оказалась недостаточной для возросшего объёма и/или характера нагрузки в период 170–171.⚠️

ℹ️Иными словами, при неизменных shared_buffers, work_mem, effective_cache_size и других параметрах рост активности привёл к пропорциональному и непропорциональному ухудшению отдельных показателей.

Обоснование (тезисы)

Рост среднего времени выполнения запроса на DB-4 и DB-5 (в 3,1 и 2,5 раза соответственно) при увеличении количества запросов лишь на 35–39% указывает на то, что каждый запрос в отдельности стал выполняться медленнее. Это не может быть объяснено только увеличением числа запросов – требуется фактор, замедляющий обработку (дисковый ввод-вывод, ожидания, конкуренция за память). Уровень‑1.
Доля I/O time в общем времени DB-4 выросла с 40,5% до 65,6% – запросы стали больше ожидать диска. Уровень‑1.
Shared blocks read (чтения с диска) вырос непропорционально количеству запросов на DB-4 (+125% при +39% запросов) и на DB-5 (×14,5 при +35% запросов). Это может свидетельствовать о снижении эффективности кеша (shared_buffers): данные, которые ранее попадали в кеш и обслуживались из памяти (shared_blks_hit), теперь требуют физического чтения. Уровень‑1 (рост читаемых блоков) и Уровень‑2 (связь с эффективностью кеша – так как значение shared_blks_hit и размер shared_buffers не предоставлены).
Увеличение Temp & local blocks written/read (на DB-4 и отчасти DB-5) говорит о возросшем использовании временных файлов на диске. Это типично для операций сортировки или хеширования, превышающих work_mem. Так как work_mem не менялся, а объёмы обрабатываемых данных выросли, вероятно, запросы стали чаще уходить на диск. Уровень‑2 (вероятная причина, требуется проверка планов запросов и значения work_mem).
⚠️Количество cache resets на DB-4 подскочило с 1 до 375. Сброс всего разделяемого кеша – очень дорогая операция, возникающая при определённых условиях (например, при очистке кеша после выполнения некоторых команд или из-за нехватки памяти). Это коррелирует с возросшей модификацией данных (dirtied, WAL) и может указывать на давление на общий пул буферов. Уровень‑2.
Идентичность конфигурации означает, что сервер не адаптировался к возросшей нагрузке автоматически. Следовательно, ухудшения логично связывать с фиксированным размером ресурсов. Уровень‑2.

Альтернативная гипотеза (менее вероятная по косвенным признакам)

Рост показателей вызван исключительно изменением характера запросов (например, появились новые тяжелые запросы, полные сканирования таблиц), а конфигурация была адекватна, и деградация на самом деле является ложным впечатлением из-за неравномерности нагрузки. Однако резкое увеличение среднего времени выполнения и доли I/O на DB-4 и DB‑5, а также скачок cache resets делают эту гипотезу менее убедительной. Уровень‑3.

Итоговая гипотеза:

⚠️Неизменная конфигурация при возросшей нагрузке стала фактором, способствовавшим росту физического ввода-вывода, использованию временных файлов и нестабильности кеша.

ℹ️Конфигурация не была причиной изменений (не менялась), но её недостаточность для новых условий могла усилить негативные эффекты.

4. Последовательность рассуждения и тезисов, использованных при формулировании гипотезы

Констатация идентичности конфигурации: на основе прямого сравнения параметров (Уровень‑1).
Сравнение метрик нагрузки и выявление значимых изменений: рост total time, I/O time, reads, temp-блоков, WAL, cache resets (Уровень‑1).
Вычисление производных показателей: среднее время запроса, доля I/O, коэффициент роста отдельных метрик относительно роста числа запросов (Уровень‑1). Выявлено непропорциональное ухудшение.
Анализ поведения кеша: косвенные признаки (рост читаемых блоков при отсутствии данных о hit, увеличение cache resets) указывают на возможную нехватку shared_buffers. Поскольку shared_buffers не менялся, рост объёма данных мог вызвать вытеснение полезных страниц.
Анализ временных блоков: увеличение temp-операций при фиксированном work_mem – типичный признак превышения рабочей памяти запросами.
Исключение альтернатив: без изменения конфигурации невозможно утверждать, что параметры были специально ухудшены; наблюдаемые явления объясняются либо ростом нагрузки, либо изменением планов запросов, либо комбинацией. Однако рост среднего времени выполнения при одинаковом наборе параметров говорит о том, что нагрузка упёрлась в ресурсы.
Формулировка гипотезы: неизменная конфигурация, вероятно, оказалась неоптимальной для возросшей нагрузки, что проявилось в росте I/O, временных файлов и сбросах кеша.

5. Способы подтверждения и опровержения гипотезы

Данные, необходимые для подтверждения гипотезы (и их текущий статус)

Конкретные значения параметров конфигурации (shared_buffers, work_mem, effective_cache_size, checkpoint_timeout, max_wal_size и др.) за оба периода. Без них нельзя количественно оценить адекватность настроек. Уровень‑4 (не предоставлены).
Статистика использования буферного кеша: shared_blks_hit (из pg_stat_statements или отчётов) для оценки hit ratio. Сейчас известен только shared_blks_read и blocks fetched, но без hit невозможно точно сказать, насколько эффективен кеш. Уровень‑4.
Wait events (события ожидания) из отчётов pgpro_pwr за оба периода: позволяют понять, на что именно тратилось время (I/O, LWLock, буферные блокировки и т.п.). Уровень‑4.
Планы запросов или агрегированная статистика из pg_stat_statements (типы запросов, их среднее время, объём обрабатываемых строк, использование временных файлов). Необходимо, чтобы выяснить, изменился ли характер запросов. Уровень‑4.
Системная статистика ОС (iostat, vmstat, загрузка CPU, утилизация диска). Может объяснить природу роста I/O time (диск стал узким местом, или просто увеличилось количество операций). Уровень‑4.
Информация о размере баз данных и наиболее активно изменяемых таблицах/индексах. Рост блоков dirtied и WAL может быть связан с увеличением объёма изменяемых данных. Уровень‑4.

Как подтверждение будет выглядеть в случае получения данных

Если значения shared_buffers окажутся значительно меньше объёма активно используемых данных, а hit ratio – низким или снизившимся, это подтвердит гипотезу о нехватке кеша.
Если work_mem мал относительно наблюдаемых операций сортировки/хеширования (в планах запросов) и при этом temp-файлы активно растут, это подтвердит влияние конфигурации на временные блоки.
Если wait events покажут доминирование ожиданий чтения данных (DataFileRead) и синхронной записи WAL, это укажет на физический ввод-вывод как главный фактор замедления.

Способы опровержения гипотезы

Если предоставленная статистика wait events продемонстрирует, что основные задержки вызваны не I/O, а, например, блокировками (heavy-weight locks, LWLock) или сетевыми ожиданиями, тогда гипотеза о недостаточности конфигурации памяти/диска будет ослаблена.
Если планы запросов покажут, что в периоде 2 появились принципиально новые тяжелые запросы (например, полные сканирования огромных таблиц без индексов), а конфигурация при этом оставалась более чем достаточной для обычной OLTP-нагрузки, – причина в изменении характера запросов, а не в неадекватности конфигурации.
Если окажется, что cache resets были вызваны разовым событием (например, сбросом кеша вручную или операцией обслуживания), а не системной нехваткой памяти, это подорвёт один из ключевых аргументов.

Вывод

➡️В условиях идентичной конфигурации СУБД рост метрик нагрузки (времени выполнения, физического чтения, доли I/O, временных блоков, cache resets) с высокой вероятностью указывает на то, что настройки, адекватные для периода 165–166, стали недостаточными для периода 170–171.

Для окончательного подтверждения необходимы значения параметров конфигурации, статистика hit ratio, wait events и планы запросов. На текущем этапе ключевые утверждения имеют статус «Вероятно» (Уровень‑2), так как базируются на косвенных признаках без возможности прямой верификации.

2. Уточнение анализа с использование значений конфигурационных параметров СУБД

Используя предоставленные данные о конфигурационных параметрах дополни вывод

"Вывод

В условиях идентичной конфигурации СУБД рост метрик нагрузки (времени выполнения, физического чтения, доли I/O, временных блоков, cache resets) с высокой вероятностью указывает на то, что настройки, адекватные для периода 165–166, стали недостаточными для периода 170–171. Для окончательного подтверждения необходимы значения параметров конфигурации, статистика hit ratio, wait events и планы запросов. На текущем этапе ключевые утверждения имеют статус «Вероятно» (Уровень‑2), так как базируются на косвенных признаках без возможности прямой верификации."

Дополнение к выводу аналитического отчёта с учётом полученных значений конфигурационных параметров (из table.source.1.txt)

На основании предоставленных параметров конфигурации СУБД, которые, как уже было установлено, идентичны для обоих периодов, вывод может быть усилен и конкретизирован.

Актуализированный вывод

Анализ полного списка параметров подтвердил, что ключевые настройки, влияющие на производительность, оставались без изменений. Ниже они сопоставлены с характером наблюдаемого роста нагрузки:

shared_buffers = 1 533 184 × 8 КБ ≈ 12,3 ГБ
effective_cache_size = 4 599 552 × 8 КБ ≈ 36,8 ГБ
work_mem = 32 768 КБ = 32 МБ на операцию
maintenance_work_mem = 262 144 КБ = 256 МБ
max_connections = 1000
random_page_cost = 1.1, seq_page_cost = 1, effective_io_concurrency = 300
checkpoint_timeout = 900 с, max_wal_size = 8192 МБ, min_wal_size = 2048 МБ
wal_buffers = 8192 × 8 КБ = 64 МБ, wal_level = replica, synchronous_commit = off

При идентичности этих параметров во втором периоде зафиксировано:

Рост Total time в 4,3 раза на DB‑4, в 3,4 раза на DB‑5 при увеличении числа запросов на 39% и 35% соответственно, что выразилось в трёхкратном росте среднего времени выполнения запроса.
Доля I/O time в общем времени DB‑4 поднялась с 40,5% до 65,6%, а абсолютное значение выросло в 7 раз.
Shared blocks read (чтения с диска) на DB‑4 и DB‑5 увеличились значительно сильнее, чем количество запросов: +125% и ×14,5 соответственно.
Объём записанных временных блоков вырос на 82%, а прочитанных – на 231% (DB‑4).
⚠️Число Cache resets на DB‑4 взлетело с 1 до 375.
Общий объём WAL увеличился на 65%, а количество «грязных» разделяемых блоков – на 80%.

При фиксированном shared_buffers в ~12,3 ГБ и общем effective_cache_size в ~36,8 ГБ такая динамика является индикатором того, что рабочий набор данных перестал помещаться в буферный кеш. Резкий рост чтений с диска при относительно скромном увеличении числа запросов прямо указывает на вытеснение полезных страниц из кеша и, как следствие, на возросшую зависимость от физического ввода-вывода.

Уровень-2 (Вероятно) – поскольку отсутствует статистика hit ratio, окончательное заключение требует прямых измерений (например, доля shared_blks_hit).

work_mem в 32 МБ в сочетании с большим количеством одновременных подключений (до 1000) создаёт риск массового сброса на диск операций сортировки и хеширования при параллельной работе многих сессий. Увеличение временных блоков на DB‑4 и DB‑5 полностью согласуется с этим предположением, хотя без анализа планов запросов и точного числа активных бэкендов невозможно определить, является ли исчерпание work_mem основной причиной или лишь одним из факторов.

Уровень-2 (Вероятно).

ℹ️Скачок Cache resets с 1 до 375 свидетельствует о грубых сбросах всего разделяемого кеша, что ещё больше ухудшает hit ratio и вынуждает сервер повторно считывать данные. Такие события обычно связаны либо с острой нехваткой памяти, либо с выполнением определённых высокопривилегированных операций. В условиях возросшей модификации данных (dirtied, WAL) и недостаточного буферного кеша это выглядит как цепная реакция.

Уровень-2 (Вероятно).

Параметры контрольных точек (checkpoint_timeout = 15 мин, max_wal_size = 8 ГБ) сами по себе не являются критически низкими, но увеличение объёма грязных страниц и WAL могло привести к более частым или более интенсивным контрольным точкам, что дополнительно нагружает дисковую подсистему. Однако без графика контрольных точек или статистики pg_stat_bgwriter оценить вклад именно этого фактора невозможно.

Уровень-3 (Предположение).

Таким образом, имеющиеся данные подтверждают (Уровень‑1) идентичность конфигурации и делают высоковероятным (Уровень‑2) вывод, что фиксированные настройки, адекватные нагрузке периода 165–166, стали узким местом при её росте в периоде 170–171. Недостаточный для нового объёма данных shared_buffers и, вероятно, малый work_mem при высокой конкурентности привели к значительному увеличению физического чтения, использованию временных файлов и массовым сбросам кеша, что и выразилось в наблюдаемом ухудшении временных показателей.

Для подтверждения гипотезы на уровне «Подтверждено» необходимо дополнительно получить:

статистику shared_blks_hit (hit ratio) за оба периода;
полный перечень событий ожидания (wait events) из отчётов pgpro_pwr;
планы выполнения наиболее ресурсоёмких запросов;
данные о реальном количестве активных подключений и объёме используемой памяти во втором периоде.

Без них ключевые причинно-следственные связи остаются в статусе «Вероятно», что и отражено в тексте.

3. Дополнение к выводу с учётом данных о hit ratio

Используя предоставленные данные , дополни вывод

Дополнение к выводу с учётом данных о hit ratio (из hit-1.txt и hit-2.txt)

Полученная статистика Hit(%) радикально меняет доказательную базу: ранее ключевое предположение о нехватке буферного кеша базировалось только на косвенных признаках (рост shared_blks_read, снижение средней скорости запросов).

☑️Теперь мы располагаем прямым измерением эффективности кеша за оба периода.

Актуализированный вывод

Сравнение hit ratio для всего кластера и отдельных баз данных даёт следующую картину (период 165–166 → период 170–171):

DB-4

Hit(%) в периоде 165–166: 95.1%
Hit(%) в периоде 170–171: 86.22%
Изменение: –8.88 процентных пункта
DB-5
Hit(%) в периоде 165–166: 97.85%
Hit(%) в периоде 170–171: 92.21%
Изменение: –5.64 п.п.

DB-7

Hit(%) в периоде 165–166: 99.72%
Hit(%) в периоде 170–171: 99.5%
Изменение: –0.22 п.п. (практически без изменений)

DB-8

Hit(%) в периоде 165–166: 99.7%
Hit(%) в периоде 170–171: 92.66%
Изменение: –7.04 п.п.

DB-6

Hit(%) в периоде 165–166: 94.03%
Hit(%) в периоде 170–171: 90.89%
Изменение: –3.14 п.п.

DB-3

Hit(%) в периоде 165–166: 97.38%
Hit(%) в периоде 170–171: 93.24%
Изменение: –4.14 п.п.

Всего по кластеру (Total)

Hit(%) в периоде 165–166: 95.16%
Hit(%) в периоде 170–171: 86.31%
Изменение: –8.85 п.п.⚠️

Ключевые наблюдения (Уровень-1 – Подтверждено данными)

Глобальный hit ratio кластера обрушился с 95.16% до 86.31%⚠️. Это означает, что доля данных, запрашиваемых с диска, выросла с ~4.8% до ~13.7% – почти утроение.
На самой нагруженной базе DB-4 hit ratio упал с 95.1% до 86.22%, на DB-5 – с 97.85% до 92.21%. Это базы с наибольшим абсолютным ростом Total time и Blocks fetched.
Даже на DB-8, где характер нагрузки, по-видимому, сменился с единичных тяжёлых запросов на множество лёгких, hit ratio упал с 99.7% до 92.66%, что коррелирует с появлением физических чтений и I/O.
DB-7, на которой число запросов осталось прежним (57 в каждом периоде), сохранила hit ratio практически неизменным (99.5%), что даёт опорную точку: нагрузка на неё не изменилась, и эффективность кеша для её рабочего набора осталась прежней. Это дополнительно подтверждает, что падение hit ratio на других базах вызвано именно ростом их нагрузки.

Интерпретация и связь с конфигурацией

При идентичных shared_buffers (≈12,3 ГБ) и effective_cache_size (≈36,8 ГБ) в обоих периодах падение hit ratio прямо указывает на то, что рабочий набор данных (особенно для DB-4 и DB-5) перестал помещаться в выделенный буферный кеш.

➡️Ранее это была гипотеза (Уровень‑2), теперь – подтверждённый прямыми измерениями факт (Уровень‑1).⬅️

Снижение hit ratio ведёт к резкому росту физических чтений (shared_blks_read), что, в свою очередь, увеличивает I/O time и Total time. Это также объясняет, почему Blocks fetched (сумма хитов и чтений) вырос непропорционально числу запросов: помимо увеличения абсолютного числа обращений к блокам, значительная часть этих обращений перестала удовлетворяться из кеша и ушла на диск.

Влияние на ранее сформулированную гипотезу

ℹ️Гипотеза «недостаточность shared_buffers для возросшей нагрузки» теперь имеет уровень «Подтверждено данными» в части самого факта деградации кеша.
Вклад других параметров (например, work_mem) остаётся на уровне «Вероятно» – рост временных блоков всё ещё может объясняться нехваткой памяти для сортировок и хеширования, но без планов запросов или использования temp_files в разрезе запросов мы не можем утверждать это стопроцентно.
Цепочка: рост нагрузки → вытеснение страниц из shared_buffers → падение hit ratio → рост I/O и времени выполнения – теперь прослеживается напрямую и составляет ядро объяснения наблюдаемой динамики.

Что остаётся неподтверждённым

Для полной картины по-прежнему необходимы:

wait events – чтобы понять, насколько I/O стало узким местом;
планы запросов или агрегация из pg_stat_statements – чтобы оценить, изменились ли сами запросы;
данные об использовании work_mem – количество уходов на диск для сортировок и хеширования.

Без них мы не можем исключить, что параллельно с нехваткой кеша имело место, например, изменение планов запросов, усугубившее ситуацию.

Итоговая формулировка вывода (обновлённая версия)

В условиях идентичной конфигурации СУБД наблюдаемый в периоде 170–171 существенный рост времени выполнения запросов и доли I/O в первую очередь обусловлен документированным падением hit ratio буферного кеша с 95.16% до 86.31% (в целом по кластеру) и особенно драматичным снижением на наиболее нагруженных базах DB‑4 (до 86.22%) и DB‑5 (до 92.21%). Размер shared_buffers (~12,3 ГБ) не изменился с предыдущего периода, в то время как объём обрабатываемых данных и количество запросов выросли, что привело к вытеснению полезных страниц из кеша и трёхкратному увеличению доли чтений с диска. Данный причинно-следственный механизм подтверждается прямыми измерениями (Уровень‑1). Дополнительные факторы – вероятная нехватка work_mem при высокой конкурентности и возросшая интенсивность модификации данных – могли усугубить ситуацию, однако их точный вклад остаётся на уровне «Вероятно» до получения планов запросов и событий ожидания.

4. Дополнение к выводу с учётом данных о событиях ожидания

Используя предоставленные данные , дополни вывод.

Дополнение к выводу с учётом данных о событиях ожидания (из top-waits.1.txt и top-waits.2.txt)

Полученная статистика событий ожидания (wait events) из раздела topwaitevent_stats отчётов pgpro_pwr закрывает одно из двух оставшихся «белых пятен» и позволяет существенно усилить доказательную базу.

Ключевые изменения в профиле ожиданий (период 165–166 → период 170–171)

➡️DB-4 (доминирующая база, 99.64% → ~99% всех ожиданий кластера)

IO | DataFileRead

Период 165–166: 1 479,40 с (53,74% от общих ожиданий кластера)
Период 170–171: 5 827,50 с (63,82%)
Рост в 3,9 раза — Уровень‑1 (Подтверждено данными)

IPC | BufferIo

Период 165–166: 2,75 с (0,10%)
Период 170–171: 347,85 с (3,81%)
Рост в 126 раз — Уровень‑1 (Подтверждено данными)

IO | DataFilePrefetch

Период 165–166: 4,52 с (0,16%)
Период 170–171: 70,48 с (0,77%)
Рост в 15,6 раза — Уровень‑1

LWLock | BufferMapping

Период 165–166: 0,12 с
Период 170–171: 8,53 с
Рост в 71 раз — Уровень‑1

IO | DataFileTruncate – вырос с 4,90 с до 10,66 с (×2,2)

IO | DataFileExtend – вырос с 3,51 с до 10,56 с (×3,0)

LWLock | LockManager – вырос с 0,31 с до 1,31 с (×4,2)

➡️DB-5 и DB-8

IO | DataFileRead на DB-5 вырос с 2,19 с до 22,01 с (×10)
IO | DataFileRead на DB-8 появился: 0 с → 5,61 с (ранее ожидания чтения отсутствовали)
IPC | BufferIo на DB-5 появился: 0 с → 1,63 с

Интерпретация и связь с ранее сделанными выводами

DataFileRead остаётся доминирующим ожиданием, и его абсолютное время выросло почти в 4 раза.⚠️ Это прямое и теперь неопровержимое доказательство того, что физическое чтение с диска стало главным узким местом. В сочетании с падением hit ratio с 95.16% до 86.31% (подтверждено в предыдущем дополнении) картина становится полностью согласованной: кеш не справляется → данные читаются с диска → запросы ждут DataFileRead. Уровень‑1.
Взрывной рост BufferIo (×126) — самый важный новый сигнал.⚠️ Это ожидание возникает, когда бэкенд ждёт завершения операции ввода-вывода для конкретной страницы буфера, которая уже загружается другим процессом или ещё не загружена. Резкий скачок BufferIo при неизменном shared_buffers и снизившемся hit ratio означает, что множество процессов одновременно пытаются получить одни и те же или соседние страницы с диска, создавая конкуренцию на уровне буферного пула. Это прямое следствие нехватки кеша: страницы вытесняются быстрее, чем успевают использоваться повторно, и процессы вынуждены ждать их повторной загрузки. Уровень‑1.
DataFilePrefetch (×15,6) указывает на то, что планировщик всё чаще выбирает последовательные сканирования с упреждающим чтением. Косвенно это может свидетельствовать об изменении планов запросов (рост объёмов данных мог сделать индексы менее эффективными, и оптимизатор переключился на seq scan), но без планов запросов это остаётся на уровне Уровень‑2 (Вероятно).
Рост LWLock-ожиданий (BufferMapping ×71, LockManager ×4,2) — блокировки на структурах управления буферами и таблицей блокировок — дополнительно подтверждают высокую конкуренцию за доступ к разделяемым ресурсам при интенсивной работе с диском.

Обновлённая оценка гипотезы

«Недостаточность shared_buffers для возросшей нагрузки» — теперь полностью подтверждена двумя независимыми прямыми измерениями: падением hit ratio и кратным ростом DataFileRead + BufferIo. Уровень‑1.
Роль I/O как главного узкого места — не просто вероятна, а однозначно подтверждена: 63,82% всех ожиданий кластера — это DataFileRead. Уровень‑1.
Вклад work_mem и характер запросов — остаётся на уровне «Вероятно» до получения планов запросов и temp_blks_* в разрезе отдельных запросов. Рост DataFilePrefetch намекает на возможное изменение планов, но без прямых данных по запросам не может быть верифицирован. Уровень‑2.

Итоговая формулировка вывода (финальная версия)

В условиях идентичной конфигурации СУБД наблюдаемый в периоде 170–171 существенный рост времени выполнения запросов и доли I/O обусловлен сочетанием трёх подтверждённых прямыми измерениями факторов (Уровень‑1):

1️⃣Падение hit ratio буферного кеша с 95.16% до 86.31% (в целом по кластеру) и особенно драматичное снижение на DB‑4 (до 86.22%) и DB‑5 (до 92.21%);
2️⃣Рост времени ожидания физического чтения DataFileRead почти в 4 раза на DB‑4 (с 1 479 с до 5 828 с), составляющего 63.82% всех ожиданий кластера;
3️⃣Лавинообразное увеличение ожиданий BufferIo (в 126 раз на DB‑4, с 2,75 с до 347,85 с), прямо указывающее на конкуренцию процессов за буферные страницы, массово вытесняемые из недостаточного shared_buffers.

Размер shared_buffers (~12,3 ГБ) не изменился с предыдущего периода, в то время как объём обрабатываемых данных и количество запросов выросли. Это привело к вытеснению полезных страниц из кеша, трёхкратному увеличению доли чтений с диска и появлению «бутылочного горлышка» на уровне буферного пула. Дополнительные факторы — вероятная нехватка work_mem при высокой конкурентности (рост временных блоков) и возможное изменение планов запросов (рост DataFilePrefetch) — могли усугубить ситуацию, однако их точный вклад остаётся на уровне «Вероятно» (Уровень‑2) до получения детализированной статистики запросов с temp_blks_* и планов выполнения наиболее ресурсоёмких запросов.

5. Дополнение к выводу с учётом сравнительного анализа планов выполнения (Top SQL elapsed time)

Дополни, откорректируй при необходимости, общий вывод по анализу, используя предоставленные данные о сравнении планов выполнения по разделу "Top SQL elapsed time"

Дополнение к выводу с учётом сравнительного анализа планов выполнения (Top SQL elapsed time)

Проведённое сравнение планов выполнения для запросов из раздела «Top SQL elapsed time» за оба периода закрывает последнее крупное «белое пятно» — вопрос о том, не вызвано ли ухудшение производительности деоптимизацией (выбором планировщиком худших стратегий). Результаты анализа позволяют сделать следующие утверждения.

Ключевые результаты сравнительного анализа планов

☑️Для 12 из 13 запросов с одинаковыми Query ID планы выполнения полностью идентичны по структуре: совпадают методы доступа (Index Scan, Seq Scan, Nested Loop и др.), используемые индексы, порядок операций.

Уровень‑1 (Подтверждено данными).

Один запрос (12e2db113ff929b0) в периоде 170–171 имеет альтернативный план с последовательным сканированием (Seq Scan) таблицы _InfoRg12488. В периоде 165–166 аналогичный план содержит сканирование другой таблицы, что может быть артефактом отчёта; остальные два плана (Bitmap Heap Scan, Index Scan) совпадают.

Уровень‑2 (Вероятно) — появление Seq Scan в 170–171 могло дополнительно увеличить физическое чтение для данного запроса, но однозначно утверждать это нельзя из-за неоднозначности первого плана в plan-4.txt.

ℹ️Ни один запрос не приобрёл новых временных операций (temp) — все Sort и Unique присутствовали в обоих периодах.

Интерпретация и уточнение причинно-следственных связей

Стабильность планов доказывает, что замедление выполнения запросов не вызвано деоптимизацией. Нагрузка возросла на тех же алгоритмах.
➡️Это исключает альтернативное объяснение («планировщик стал выбирать плохие планы»)⬅️, оставляя единственным объяснением ухудшения — изменившиеся условия выполнения при фиксированных ресурсах.
Рост физического чтения, временных блоков и cache resets не сопровождался адаптацией планов. Запросы продолжали работать по тем же алгоритмам, но с большими затратами на I/O и память.
Даже если для одного запроса (12e2db113ff929b0) доля Seq Scan действительно выросла, это с высокой вероятностью является следствием, а не первопричиной: при фиксированных random_page_cost, effective_cache_size и возросшем объёме данных планировщик мог переоценить стоимость индексного доступа и переключиться на Seq Scan. То есть даже возможное изменение плана производно от конфигурации и объёма данных, а не от внешнего вмешательства.

Обновлённая оценка гипотезы

Недостаточность shared_buffers — подтверждена тремя независимыми прямыми доказательствами: падение hit ratio, рост DataFileRead в 3,9 раза и взрывной рост BufferIo в 126 раз. Уровень‑1.
I/O как главное узкое место — подтверждено: 63,82% всех ожиданий кластера приходится на DataFileRead. Уровень‑1.
Стабильность планов — установлено прямым сравнением, что исключает деоптимизацию как причину замедления. Уровень‑1.
Вклад work_mem — остаётся на уровне «Вероятно», так как рост временных блоков не сопровождается появлением новых temp-операций в планах. Возможно, увеличился лишь объём данных в существующих сортировках/хешированиях, но без temp_blks_* на уровне отдельных запросов это не верифицировано. Уровень‑2.
Возможное изменение плана одного запроса на Seq Scan — если и произошло, то могло внести дополнительный вклад, но не является первопричиной. Уровень‑2.

Итоговая формулировка вывода (дополненная, с учётом анализа планов)

В условиях идентичной конфигурации СУБД наблюдаемый в периоде 170–171 существенный рост времени выполнения запросов и доли I/O обусловлен сочетанием следующих факторов, подтверждённых прямыми измерениями (Уровень‑1):

☑️Падение hit ratio буферного кеша с 95.16% до 86.31% (в целом по кластеру) и особенно драматичное снижение на DB‑4 (до 86.22%) и DB‑5 (до 92.21%);
☑️Рост времени ожидания физического чтения DataFileRead почти в 4 раза на DB‑4 (с 1 479 с до 5 828 с), составляющего 63.82% всех ожиданий кластера;
☑️Лавинообразное увеличение ожиданий BufferIo (в 126 раз на DB‑4, с 2,75 с до 347,85 с), прямо указывающее на конкуренцию процессов за буферные страницы, массово вытесняемые из недостаточного shared_buffers;
☑️Стабильность планов выполнения для 12 из 13 основных запросов — замедление не связано с деоптимизацией, а вызвано ухудшением условий выполнения при тех же алгоритмах.

ℹ️Размер shared_buffers (~12,3 ГБ) не изменился с предыдущего периода, в то время как объём обрабатываемых данных и количество запросов выросли. Это привело к вытеснению полезных страниц из кеша, трёхкратному увеличению доли чтений с диска и появлению «бутылочного горлышка» на уровне буферного пула.

⚠️Тот факт, что планы запросов не претерпели существенных изменений, исключает версию о деоптимизации как причине замедления и дополнительно подтверждает, что корень проблемы — недостаточность фиксированных ресурсов для возросшей нагрузки.⚠️

Дополнительный фактор — вероятная нехватка work_mem (рост временных блоков при фиксированных 32 МБ на операцию и высокой конкурентности) — остаётся на уровне «Вероятно» (Уровень‑2), поскольку без temp_blks_* в разрезе запросов невозможно отделить увеличение объёмов сортировок от появления новых операций, уходящих на диск. Возможное переключение одного запроса на Seq Scan, если оно действительно произошло, могло внести дополнительный вклад в рост физического чтения, но даже в этом случае оно само является следствием фиксированных настроек планировщика при увеличившихся данных, а не самостоятельной причиной деградации.

Итог

По итогам проведенного аналитического отчета, сформулируй рекомендации по исключению причины аномальной утилизации дисковой подсистемы и оптимизации производительности СУБД . Предоставь последовательность тезисов используемых при формировании выводов и рекомендаций. Сформулируй общий итог аналитического отчета.

Приоритетные рекомендации

1️⃣Увеличить объём разделяемого буферного кеша (shared_buffers)

Основание: Прямые измерения показали падение hit ratio с 95.16% до 86.31% и четырёхкратный рост ожиданий физического чтения DataFileRead при неизменном shared_buffers (~12,3 ГБ). Объём активно используемых данных вырос и перестал помещаться в кеш, что привело к массовому вытеснению страниц и буферной конкуренции (BufferIo вырос в 126 раз).
Ожидаемый эффект: Увеличение shared_buffers позволит вернуть hit ratio к высоким значениям, радикально сократить физические чтения и устранить основную причину ожиданий DataFileRead и BufferIo.
ℹ️Статус: Рекомендация на основе причины Уровень‑1 (Подтверждено данными).

2️⃣Оценить достаточность оперативной памяти для сортировок и хеширования (work_mem) и рассмотреть её увеличение

Основание: При фиксированном work_mem (32 МБ) и возросшем количестве запросов наблюдался рост временных блоков (temp_blks_written) и общего времени выполнения. Вероятно, часть запросов стала чаще сбрасывать промежуточные результаты на диск из-за превышения доступной памяти для операций сортировки/хеширования.
Ожидаемый эффект: Снижение нагрузки на дисковую подсистему за счёт уменьшения временных файлов, особенно при одновременном выполнении множества запросов, каждый из которых требует памяти для внутренних операций.
Важное ограничение: При числе подключений max_connections = 1000 любое увеличение work_mem должно сопровождаться оценкой пикового потребления памяти (умножением на возможное количество одновременных активных запросов). Рекомендуется мониторинг фактического использования памяти и, при необходимости, ограничение параллелизма или переход к выдаче work_mem через параметры на уровне ролей/баз данных.
Статус: Рекомендация на основе причины Уровень‑2 (Вероятно), требует проверки детализированными данными temp_blks_* в разрезе запросов.

3️⃣Проверить и при необходимости скорректировать effective_cache_size

Основание: Параметр effective_cache_size (~36,8 ГБ) используется планировщиком для оценки выгодности индексного доступа. При значительном росте объёма данных и фактическом снижении эффективности кеша планировщик может недооценивать стоимость индексных сканирований, потенциально склоняясь к последовательным чтениям. Хотя планы запросов в основном не изменились, для одного ресурсоёмкого запроса зафиксировано возможное появление Seq Scan во втором периоде.
Ожидаемый эффект: Актуализация effective_cache_size в соответствии с новым объёмом shared_buffers и характером рабочего набора поможет планировщику выбирать оптимальные планы, снижая вероятность неоправданных последовательных сканирований.
Статус: Рекомендация на основе косвенных признаков Уровень‑2 (Вероятно).

4️⃣Проанализировать статистику выполнения запросов на уровне отдельных Query ID и рассмотреть оптимизацию наиболее ресурсоёмких из них

Основание: Основной рост нагрузки сосредоточен на нескольких запросах (Top SQL elapsed time). Хотя их планы не изменились, возросший объём обрабатываемых данных мог привести к значительному увеличению как логических, так и физических чтений. Точечная оптимизация (добавление индексов, корректировка запросов) может дать существенный выигрыш, даже при сохранении текущей конфигурации.
Ожидаемый эффект: Сокращение абсолютного количества читаемых блоков (как из кеша, так и с диска), что снизит давление на буферный пул и уменьшит общее время выполнения.
Статус: Рекомендация общего характера (Уровень‑2), основанная на наблюдаемой концентрации нагрузки на DB‑4 и отдельных запросах; требует данных pg_stat_statements (или pgpro_stats) с shared_blks_read, temp_blks_written, calls для выбора конкретных целей.

5️⃣Обеспечить регулярный мониторинг hit ratio, wait events и статистики буферного кеша для предотвращения повторной деградации

Основание: Проблема развивалась постепенно вместе с ростом нагрузки и объёма данных, оставшись незамеченной до накопления значительной деградации.
Ожидаемый эффект: Раннее обнаружение трендов падения hit ratio или роста ожиданий I/O позволит своевременно корректировать конфигурацию, не допуская перехода системы в состояние «бутылочного горлышка».
Статус: Общая практическая рекомендация.

Последовательность тезисов, использованных при формировании выводов и рекомендаций

Конфигурация СУБД не изменилась между периодами 165–166 и 170–171 — все параметры идентичны (Уровень‑1).
Общий hit ratio кластера упал с 95.16% до 86.31%, на наиболее нагруженной DB‑4 — до 86.22% (Уровень‑1). Это прямое доказательство деградации эффективности буферного кеша.
Ожидания физического чтения DataFileRead выросли почти в 4 раза на DB‑4 и стали доминирующими (63.82% всех ожиданий кластера) (Уровень‑1). Физический ввод-вывод является главным фактором замедления.
Ожидания BufferIo выросли в 126 раз (Уровень‑1), что свидетельствует о массовой конкуренции процессов за буферные страницы, вытесненные из недостаточного кеша.
Планы выполнения 12 из 13 основных запросов полностью идентичны в обоих периодах (Уровень‑1). Замедление не вызвано деоптимизацией — запросы работают по тем же алгоритмам, но в худших условиях.
Поскольку алгоритмы не изменились, а время выполнения и ввод-вывод резко возросли, причина замедления — внешние по отношению к планам факторы: неспособность фиксированной конфигурации обслужить увеличившийся объём данных и количество запросов.
Размер shared_buffers не изменился, а рабочий набор данных вырос → кеш стал недостаточен → физические чтения выросли (подтверждено hit ratio и DataFileRead).
Рост временных блоков при фиксированном work_mem и высокой конкурентности (max_connections = 1000) с высокой вероятностью указывает на нехватку памяти для сортировок и хеширования, хотя эта связь ещё требует прямого подтверждения через temp_blks_* на уровне запросов (Уровень‑2).
Таким образом, первопричина аномальной утилизации дисковой подсистемы — несоответствие между фиксированными ресурсами (shared_buffers, вероятно work_mem) и возросшим объёмом обрабатываемых данных при той же нагрузке на тех же планах.
Следовательно, основная рекомендация — увеличить shared_buffers; дополнительная — оценить и, вероятно, увеличить work_mem с осторожностью; сопутствующая — актуализировать effective_cache_size и точечно оптимизировать запросы с наибольшим вкладом в физические чтения и временные файлы.

Общий итог аналитического отчёта

Анализ двух последовательных отчётов pgpro_pwr (периоды 165–166 и 170–171) выявил значительное ухудшение производительности СУБД, выразившееся в кратном росте времени выполнения запросов и доли ожиданий ввода-вывода. При полностью идентичных параметрах конфигурации в обоих периодах установлена прямая причинно-следственная связь:

объём обрабатываемых данных и количество запросов возросли;
фиксированный размер shared_buffers (~12,3 ГБ) перестал вмещать активно используемые страницы, что привело к падению hit ratio с 95.16% до 86.31%;
снижение эффективности кеша вызвало четырёхкратный рост ожиданий физического чтения DataFileRead и стодвадцатишестикратный рост ожиданий BufferIo, связанных с конкуренцией за буферные страницы;
планы выполнения основных запросов не изменились, что исключает деоптимизацию как причину замедления и подтверждает, что корень проблемы — недостаточность выделенных ресурсов для изменившейся нагрузки;
дополнительным фактором, вероятно, стал недостаток work_mem (32 МБ) при высокой конкурентности, приведший к увеличению операций с использованием временных файлов на диске.

Таким образом, исчерпание ёмкости буферного кеша при фиксированной конфигурации является основной и документально подтверждённой (Уровень‑1) причиной аномальной утилизации дисковой подсистемы.

➡️Первоочередной мерой должна стать адаптация shared_buffers к текущему рабочему набору данных с последующей оценкой достаточности work_mem и точечной оптимизацией наиболее нагруженных запросов.

Регулярный мониторинг hit ratio, wait events и временных файлов позволит предотвратить повторение подобной деградации в будущем.

Послесловие

Проведённый анализ демонстрирует, что ключом к раскрытию истинной причины аномальной дисковой активности стало не изолированное рассмотрение какого-либо одного показателя, а системное сопоставление трёх независимых слоёв данных: эффективности кеширования (hit ratio), профиля событий ожидания (wait events) и стабильности планов выполнения запросов. Падение глобального hit ratio с 95,2 % до 86,3 %, четырёхкратный рост ожиданий DataFileRead и стодвадцатишестикратный скачок BufferIo при полной идентичности конфигурации и планов запросов составили доказательную базу, практически исключающую альтернативные версии.

ℹ️Такая методология — от косвенных признаков к прямым измерениям, затем к перекрёстной верификации — может быть рекомендована как типовой протокол расследования эксплуатационных аномалий в СУБД, особенно в условиях, когда изменение нагрузки опережает административную адаптацию параметров.