🔹 Что такое ETL и зачем он нужен? (ETL — Extract (извлечение), Transform (преобразование), Load (загрузка)) 🔸 Решает проблему разбросанных и «грязных» данных: без ETL сложно собрать данные из разных систем, привести форматы и получить надёжную таблицу для аналитики. 🔸 Extract — считывание данных из источников (БД, API, файлы). Нужен, чтобы получить исходное «сырое» состояние; без него нечего обрабатывать. 🔸 Transform — очистка, нормализация, агрегации и бизнес-логика. Пример: привести даты к ISO, удалить дубли, посчитать KPI — здесь данные становятся полезными. 🔸 Load + pipeline — Load записывает результат в хранилище (DWH, аналитическая таблица). Pipeline — автоматизированная последовательность Extract→Transform→Load с расписанием и мониторингом; без pipeline всё ручное и ломается чаще. def pipeline(): data = extract("s3://bucket/sales.csv") data = transform(parse_dates=True, drop_duplicates=True) load(data, "warehouse.sales") 📚 Extract→Transform→Load = повторяемый pipelin