2 недели назад
🔹 Типы пайплайнов: batch vs event-driven
🔹 В чём разница между классическим ETL (Extract, Transform, Load) и event-driven pipeline? 🔸 Чтобы решать разные проблемы: один путь — обрабатывать большие объёмы периодически, другой — быстро реагировать на события в системе. 🔸 batch pipeline: обрабатывает данные пачками по расписанию (ночные ETL), прост в отладке, хорош для тяжёлых агрегатов, но даёт высокую задержку и большие пиковые нагрузки. 🔸 stream pipeline: потоковая обработка, данные идут непрерывно; триггер (trigger) — событие, которое запускает обработку (например, сообщение в Kafka или webhook)...
1 месяц назад
🔹 ETL — три шага, которые спасают данные
🔹 Что такое ETL и зачем он нужен? (ETL — Extract (извлечение), Transform (преобразование), Load (загрузка)) 🔸 Решает проблему разбросанных и «грязных» данных: без ETL сложно собрать данные из разных систем, привести форматы и получить надёжную таблицу для аналитики. 🔸 Extract — считывание данных из источников (БД, API, файлы). Нужен, чтобы получить исходное «сырое» состояние; без него нечего обрабатывать. 🔸 Transform — очистка, нормализация, агрегации и бизнес-логика. Пример: привести даты к ISO, удалить дубли, посчитать KPI — здесь данные становятся полезными...