68 подписчиков

ℹ️Анализ cache_resets в pgpro_stats_totals

5 марта5 мар

4 мин

Поле cache_resets в представлении pgpro_stats_totals — это ценный источник информации для диагностики проблем с производительностью, связанных с кэшированием планов запросов. В предоставленных результатах поиска нет прямых примеров анализа именно этого поля, но есть достаточно технических деталей, чтобы объяснить его смысл и построить на его основе практические примеры.

С технической точки

Оглавление

🧐 Что такое cache_resets?
📊 Как анализировать cache_resets
Мониторинг активности сбросов

🧐 Что такое cache_resets?

С технической точки зрения, поле cache_resets отображает количество принудительных сбросов (очисток) общего кэша планов (shared plan cache) в PostgreSQL .

Как это работает: Когда вы выполняете SQL-запрос, PostgreSQL строит для него план. Чтобы каждый раз не выполнять эту ресурсоемкую работу, сервер сохраняет план в общем кэше. Этот план может быть использован повторно при последующих вызовах того же запроса.
Когда счетчик растет: Счетчик cache_resets увеличивается, когда происходит событие, делающее сохраненный план неактуальным. Это называется инвалидацией кэша. Самое частое событие — это изменение структуры данных (DDL), например, добавление или удаление колонки в таблице (ALTER TABLE), создание или удаление индекса (CREATE / DROP INDEX), обновление статистики (ANALYZE) и т.д. .
Для чего это нужно: Этот механизм гарантирует, что сервер всегда использует актуальный и оптимальный план для запроса. Однако слишком частое обновление структуры или другие причины инвалидации могут привести к тому, что планы будут вытесняться из кэша до того, как их успеют использовать повторно.

📊 Как анализировать cache_resets

Значение этого поля лучше всего рассматривать в динамике и в связке с другими метриками. Сам по себе факт сброса кэша — это нормальная работа СУБД. Проблемы начинаются, когда сбросы происходят слишком часто.

Мониторинг активности сбросов

Чтобы понять, с какой частотой происходят сбросы, можно опросить представление pgpro_stats_totals с интервалом (например, раз в минуту) и посчитать разницу значений. Это покажет, сколько раз кэш был сброшен за последнюю минуту.

sql

-- Первый запрос (в момент времени T1)

SELECT cache_resets FROM pgpro_stats_totals;

-- Второй запрос (в момент времени T2, через минуту)

SELECT cache_resets FROM pgpro_stats_totals;

Резкий и постоянный рост числа сбросов (cache_resets) — это сигнал о возможной проблеме.

Примеры анализа проблемных ситуаций

1. Внезапный всплеск после применения миграций

Ситуация: Вы провели миграцию схемы данных (например, добавили индекс в таблицу orders). Сразу после этого вы наблюдаете временное падение производительности и резкий рост cache_resets.
Анализ: Это классический случай. Добавление индекса привело к инвалидации всех планов запросов, которые обращались к таблице orders . Серверу пришлось заново строить планы для этих запросов, что и вызвало кратковременную нагрузку. Если после этого рост cache_resets прекратился, а производительность восстановилась, то ситуация штатная.
Вывод: Миграция выполнена успешно, и теперь сервер будет строить новые, более оптимальные планы с использованием добавленного индекса.

2. Постоянно высокий уровень сбросов

Ситуация: Мониторинг показывает, что значение cache_resets растет очень быстро и не снижается (например, по 10-20 сбросов в минуту в течение рабочего дня). При этом общая производительность базы данных низкая.
Анализ: Это может указывать на то, что какая-то сущность в базе данных (чаще всего таблица) изменяется слишком часто. Например, если раз в несколько секунд запускается процесс, который делает ALTER TABLE ... ADD COLUMN ... (даже если колонка уже существует и команда ничего не меняет по факту), это все равно будет сбрасывать кэш. В таких условиях планы запросов просто не успевают кэшироваться и переиспользоваться.
Действие: Необходимо искать в коде приложения или в автоматических заданиях операции, которые часто изменяют схему данных, и оптимизировать их.

3. Корреляция с падением производительности

Ситуация: Инструмент мониторинга, подобный pgpro_pwr (который как раз использует данные из pgpro_stats_totals), показывает, что пики потребления ресурсов (например, CPU или I/O) совпадают по времени с пиками роста cache_resets .
Анализ: Это прямая корреляция, указывающая на причину проблемы. Рост cache_resets означает, что сервер активно перестраивает планы запросов. Само по себе построение плана — ресурсоемкая операция. Если планы строятся для большого количества уникальных, сложных запросов, это создает высокую нагрузку на CPU.
Действие: Сфокусируйте расследование на запросах, которые выполнялись в эти моменты. Посмотрите представление pgpro_stats_statements, чтобы найти запросы с наибольшим временем планирования (total_plan_time). Высокое total_plan_time в сочетании с ростом cache_resets укажет на конкретные запросы, которые чаще всего "страдают" от сброса кэша и при этом требуют много ресурсов на перепланирование.

💡 Резюме

Поле cache_resets — это индикатор "турбулентности" в кэше планов. Анализируйте его не изолированно, а в связке с метриками производительности и изменениями в схеме базы данных.

Нормально: Плавный, нечастый рост cache_resets во время проведения регламентных работ (обновление статистики, миграции).
Тревожный сигнал: Быстрый, постоянный или аномально высокий рост cache_resets, особенно если он совпадает с падением производительности.

Понимание этого параметра поможет вам отличать штатную работу СУБД от проблем, вызванных неоптимальным управлением схемой данных.