Other Languages
В мире финансов всё усложняется: и услуги банков, и архитектура их информационных систем. Одно из главных препятствий — сложность выявления проблем, если опираться только на технический мониторинг. Вот почему в центре внимания сейчас стратегии мониторинга, ориентированные на бизнес-процессы, не зависящие от используемых технологий. Автор, опираясь на свой богатый опыт в этой области, рассказывает о ключевых метриках и правилах для эффективного наблюдения за работой бизнеса.
Как менялись подходы к мониторингу
На первом этапе всё делается вручную: сотрудники IT-отдела сами настраивают метрики, правила и параметры. Зачастую это сводится к созданию скриптов в системах типа Zabbix, которые сигнализируют о проблемах, как только показатели выходят за установленные рамки.
На втором этапе происходит стандартизация: уже есть четкие правила, какие метрики и параметры нужно отслеживать, чтобы система работала как часы. Это помогает держать под контролем разнообразие систем и обеспечивать их согласованную работу.
Третий этап — система сама научилась определять, что и как ей мониторить, анализируя собственную эффективность и эффективность бизнес-процессов. Это значительно облегчает жизнь IT-специалистам.
Мы сосредоточимся на втором этапе и покажем, как на основе нашего опыта можно создать универсальные метрики и правила для мониторинга, которые помогут бизнесу работать лучше.
Ключевые показатели и правила уведомлений для контроля за банковскими сервисами
Информационные системы банков определяются через коды транзакций или интерфейсы и отличаются кодами ответов, объемами транзакций и скоростью обработки запросов. В данном руководстве вы найдете ключевые метрики и правила для уведомлений, которые помогут эффективно мониторить бизнес-процессы, основываясь на этих параметрах.
1. Процент успешных транзакций
Основным показателем для мониторинга систем является процент успешных транзакций, который критически важен для оценки работоспособности системы. Традиционно, для определения успеха транзакции учитываются только системные ошибки, такие как проблемы с сетью или доступом к файлам. Однако, отсутствие таких ошибок не означает, что в бизнес-процессах нет проблем. Например, необычное увеличение количества запросов A001, указывающих на отсутствие записи, может сигнализировать о неполадках. Важно различать процент успешности с точки зрения технической стороны и бизнес-логики, где важны ожидаемые результаты транзакций. Такой подход позволяет более точно отслеживать работу системы, ориентируясь не только на успешность, но и на соответствие ожиданиям по каждой транзакции.
2. Процент успешных транзакций сервисных систем
В банковских системах четко разделяются инициирующие и исполняющие сервисные системы транзакций. Знание, как именно работают сервисные системы, критически важно для выявления и устранения проблем. Необходимо понимать, какие сервисные системы задействованы в транзакциях и каков их процент успеха. Детальный анализ успеха отдельных транзакций внутри системы может дать глубокое понимание их надежности и выявить потенциальные узкие места.
3. Когда Узлы Молчат: Тревога "Отсутствие Транзакции"
В быстро меняющемся мире высокочастотной торговли (High-Frequency Trading) существует умный подход: настройка оповещения на те моменты, когда, неожиданно, ничего не происходит. Представьте себе оживленный рынок, который внезапно стихает. Это оповещение активируется, если в течение определенного времени на конкретном узле не совершается какая-либо транзакция - это своего рода сигнал о "пропущенном событии". Это похоже на ожидание звонка от друга каждый день и волнение, когда он не поступает. Однако определить, когда следует ожидать этот звонок (или транзакцию), не так уж и просто, ведь периоды активности и спокойствия различаются, как выходные и будние дни. В этом контексте важно отслеживать динамику каждой транзакции, выявляя те, что должны происходить прямо сейчас. Таким образом, мы вводим понятия "часы пик" и "спокойное время" - например, считая будни с 8:00 до 19:00 пиковым периодом. Если транзакция с кодом A002 активна весь день, за ней ведется непрерывное наблюдение. Но если A003 активизируется лишь в пиковые часы, ему предоставляется перерыв в моменты затишья. А вот A004? Если он лишь изредка дает о себе знать в течение дня, его оставляют без внимания.
4. Внезапные Перепады: Как Отслеживать Резкие Изменения в Транзакциях
Транзакции каждый день текут ровно, словно река в своем русле. Однако, если в системе происходит сбой, этот поток может внезапно превратиться в потоп или пересыхать. Важно уметь быстро замечать такие экстремальные изменения. Рассмотрим, например, транзакцию A005 в пиковые часы дня. Сравнивая ее активность с обычным днем, мы вычисляем изменения. Если они находятся в пределах нормальных колебаний (скажем, от 0.8 до 1.2 раза от нормы), все в порядке. Но если активность резко падает до 0.4 или взлетает до 1.6, это сигнал к действию. Однако этот метод менее эффективен для редких транзакций, где даже небольшие изменения могут казаться значительными.
5. Мониторинг Пульса: Отслеживание Аномальных Объемов Транзакций
Детальный анализ показателей успешности транзакций, особенно на уровне отдельных кодов, показывает сложность: данный метод плохо адаптирован к крайностям низко- и сверхвысокочастотных транзакций. Представьте: транзакции с низкой частотой запускают тревожные сигналы, как фейерверки, тогда как сверхвысокочастотные могут остаться незамеченными, упуская сигнал о возможных проблемах.
Рассмотрим транзакцию A006, совершающую 10,000 транзакций за короткие 10 минут, 50 из которых сталкиваются с трудностями. Это уменьшает процент успеха на всего 0,5% — казалось бы, незначительно, но это может иметь катастрофические последствия. В то же время A007 осуществляет лишь две транзакции за аналогичное время, но из-за ее значимости в финансовом мире, даже один сбой нельзя игнорировать. Решение заключается в адаптации порогов сигналов тревоги — более 10 ошибок для A006, всего одна для A007 — в зависимости от частоты транзакций, что позволяет эффективно обходить проблему. А представьте панель управления, которая детализирует информацию о всех проблемных транзакциях, от узла обработки до сервисной системы, упрощая оперативное решение проблем.
6. Временной Зажим: Превышения Времени Реакции
Системы банков работают как часы, но иногда могут замедляться или даже останавливаться. Традиционные системы мониторинга могут отслеживать скорость реакции, но что если задержки едва не достигают порога срабатывания сигнала тревоги? В условиях транзакций с интенсивным трафиком даже небольшая задержка не всегда означает серьёзную проблему.
Решение здесь следующее: внимательно наблюдайте за изменениями во времени отклика транзакций от цикла к циклу. Например, если обычное время выполнения A008 составляет 300 мс, а время увеличивается до 600 мс или даже до 900 мс, это может указывать на неполадки. Появление трех таких отклонений в одном цикле — сигнал для активации тревоги.
7. Завершение Рабочего Дня и Учет
Конец рабочего дня в банковской системе — это ключ к успешному началу следующего дня. Мониторинг здесь прямолинейный: транзакции, запланированные на конец дня, должны быть начаты и завершены в строго установленные сроки, подтверждённые сигналом об успешном завершении. Когда речь идет о балансировке бухгалтерских книг, стабильность имеет решающее значение — незначительные расхождения допустимы и не мешают обычной работе бизнеса.
Так мы завершаем наш обзор создания интеллектуальных и чувствительных инструментов для мониторинга бизнес-процессов. Следите за обновлениями, чтобы узнать о технических трудностях, возникающих при реализации этих концепций.
Ссылка на оригинальную статью: https://mp.weixin.qq.com/s/qlvqPsz2fX0AyxMdXdVzxw
Netis specializes in Business Performance Analysis (BPC) and Network Performance Monitoring (NPM). Each day, our transaction monitoring solutions ensure the smooth completion of over 30 billion transactions. We prioritize the security and autonomy of systems and data. Utilizing real-time analysis through network traffic mirroring, we ensure zero intrusion into business operations, without the need for any agent installations. Headquartered in Shanghai, China, Netis is a global software company renowned for its high-performance, cost-effective products. If you're interested in our offerings, please don't hesitate to reach out. We eagerly await your trial and partnership.
For further details, visit: www.netis.com/en/
Contact me via email at: dennis.li@netis.com