Умение обрабатывать, хранить и использовать данные прямо влияют на успех любой компании. Такой процесс обычно называют – конвейер данных. Конвейеры данных включают 5 основных этапов: Сбор данных. Данные собираются из сторонних хранилищ данных, различных потоков данных и приложений. Прием данных. В процессе приема данные загружаются и организуются в очередях событий. Хранение данных. После данные размещаются в data warehouses, data lakes и data lakehouses, а также в различных системах, таких как базы данных, обеспечивая хранение...
Перевод статьи подготовлен для студентов курса «Data Engineer» в образовательном проекте OTUS. Apache Beam и DataFlow для конвейеров реального времени Сегодняшний пост основан на задаче, которой я недавно занимался на работе. Я был действительно рад, воплотить её и описать проделанную работу в формате блогпоста, поскольку это дало мне возможность позаниматься дата-инжинирингом, а также сделать что-то, что было бы весьма полезным для моей команды. Не так давно я обнаружил, что в наших системах...