Найти в Дзене
FutureBanking

Как обеспечить соответствие ETL-процессов бизнес-целям компании?

Об инструментах и стратегиях реализации ETL-процессов, плюсах и минусах кастомных и коробочных решений, а также о том, как с помощью low-code платформы решаются ETL-боли компаний из различных отраслей, поговорили с Михаилом Шмитовым, генеральным директором DECO Systems, спикером недавно прошедшего форума Fintech Data Day. — Какие ETL-инструменты представлены на рынке? Чем
они отличаются друг от друга и какие критерии следует учитывать при их
выборе?
М. Шмитов: Есть несколько подходов к реализации процессов наполнения хранилища данных. Можно использовать open source инструменты, такие как Airbyte, DBT и Argo Workflows.
Коммерческие инструменты менее известны широкой аудитории, так как
принадлежат крупным интеграторам и зарубежным технологическим компаниям. Эти инструменты позволяют реализовывать корпоративное хранилище в
облаке, например в Microsoft Azure. К этой же категории относятся
классические ETL-инструменты, например Informatica PowerCenter, у
которого уже появились росси

Об инструментах и стратегиях реализации ETL-процессов, плюсах и минусах кастомных и коробочных решений, а также о том, как с помощью low-code платформы решаются ETL-боли компаний из различных отраслей, поговорили с Михаилом Шмитовым, генеральным директором DECO Systems, спикером недавно прошедшего форума Fintech Data Day.

— Какие ETL-инструменты представлены на рынке? Чем
они отличаются друг от друга и какие критерии следует учитывать при их
выборе?


М. Шмитов: Есть несколько подходов к реализации процессов наполнения хранилища данных. Можно использовать open source инструменты, такие как Airbyte, DBT и Argo Workflows.

Коммерческие инструменты менее известны широкой аудитории, так как
принадлежат крупным интеграторам и зарубежным технологическим компаниям.

Эти инструменты позволяют реализовывать корпоративное хранилище в
облаке, например в Microsoft Azure. К этой же категории относятся
классические ETL-инструменты, например Informatica PowerCenter, у
которого уже появились российские аналоги.
Все эти инструменты развиваются достаточно давно и обладают своими
преимуществами и недостатками. Например, минус проприетарных
инструментов заключается в том, что созданные в них ETL-процессы зависят
от наличия самого инструмента. Если инструмент будет удален из
инфраструктуры, то перестанут функционировать и процессы.

Наша компания занимается развитием продукта DMP «Управление хранилищем», специально разработанного для реализации задач построения
корпоративного хранилища данных, создания послойной модели данных и ее
наполнения. Он обладает функциональностью генерации исходного кода
ETL-процессов, создания модели данных в хранилище, а также включает
методологию работы со слоями хранилища данных и поддержку управления
историчностью данных. Инструмент обеспечивает возможность очистки дублей в данных в процессе загрузки и учитывает другие технологические нюансы,
специфичные для хранилищ данных.

Также есть универсальные инструменты, которые позволяют просто перегонять данные «из пункта А в пункт Б». При наличии определенной экспертизы они могут быть полезны для построения ETL-процессов, однако рынок предпочитает решения, которые учитывают технические аспекты реализации современных принципов и подходов к созданию корпоративного хранилища данных.

— Какую стратегию вы рекомендуете выбрать при внедрении ETL-решений?

М. Шмитов: Выбор стратегии зависит от финансовых возможностей и от желания создать собственный дата-департамент с собственной компетенцией в создании ETL-процессов. Не секрет, что сейчас все компании стремятся стать датацентричными и крупнейшие игроки вкладывают значительные средства в создание своего «офиса CDO». Однако использование кастомной разработки справедливо ассоциируется с долгими сроками, высокими затратами и сложностью обеспечения качества данных.

Поэтому компании, ограниченные в ресурсах, предпочитают использовать
коробочные решения, которые отвечают всем требованиям и позволяют
быстрее достичь целей, часто столь же амбициозных. Эти решения разработаны и протестированы — значит, их можно сразу внедрять, что значительно ускоряет процесс и снижает затраты. Их проще адаптировать с помощью специалистов, которые знакомы с SQL, — соответственно, требуемая квалификация специалистов меньше, чем при кастомной in-house разработке или кастомной разработке с привлечением подрядчика. Кроме того, коробочные решения включают в себя лучшие технологические практики и
минимизируют риски, связанные с внедрением, поскольку разрабатываются
специалистами с высоким уровнем компетенции.  

Таким образом, использование готовых коробочных решений позволяет
компаниям быстрее и дешевле достигать своих целей, не жертвуя качеством.


—   Вы сказали, что для компаний важно наличие у разработчика
отраслевой экспертизы. Действительно ли существуют различия в применении ETL-процессов при реализации хранилищ данных в различных отраслях?


М. Шмитов: ETL-процессы, независимо от сферы деятельности заказчика, выполняют схожие задачи: они переносят данные из источников и заполняют слои данных хранилища с целью формирования витрин данных и, например, дальнейшего их использования в BI-инструментах. Однако часто заказчики заинтересованы в команде со знанием методологии и аналитическим опытом в конкретной отрасли.

Например, в банках предпочитают подрядчиков, которые уже знакомы с построением регуляторной и управленческой отчетности...

Продолжение читайте на https://futurebanking.ru/post/4178