Найти в Дзене
Airflow для менеджеров
В Ariflow 3.1 появилась группа hitl-операторов, которая позволяет что-то вводить пользаку во время работы дага HITL = Human-in-the-loop 🫠 Что делает пример на картинках? Мы задаем даты, выбираем сервисы из списка, вводим почту и получаем отчет. Операторы по сути помогают менеджерам не дергать DA/DE своими адхоками, а пойти самому накликать и выгрузить то, что нужно 🤓 А как это происходит? В базовых примерах после разворачивания airflow появится даг example_hitl_operator. Там есть несколько операторов из пакета airflow...
5 дней назад
Куда катится рынок
? Недавно заходила послушать обсуждение текущей ситуации на рынке. Что интересного оттуда записала: 1️⃣ Сейчас есть смысл просить 300-350-400. Потому что вместо разраба за 500-600 возьмут обычного + дадут ему иишку. Хотя еще совсем недавно говорили, что занижать себе цену тоже не надо Извините, неудачники нам не нужны — видимо, больше не работает А вот вилка по аутстаффу — вообще максимум 280-300 на руки 2️⃣ На hh есть плашка "Конкретные достижения". Она видна только hr. И резюме с такой плашкой чаще показывается работодателям...
1 неделю назад
Data Vault за один вечер
Решила я тут погрузиться в дата волт на практике. Нашла интересный проект — AutomateDV (бывший dbtvault) У них есть демо-проект, в котором создаются разные сущности, несколько видосов с объяснениями и небольшая, но очень детальная дока 💻 Поставила себе по инструкции dbt-core, dbt-postgres: python -m pip install dbt-core dbt-postgres Подключила AutomateDV — это просто пакет в dbt-проекте, задается в packages.yml: dbt deps Подняла постгрю в докере, настроила коннекшены, создала проект: dbt init Сгенерила данные из датасета TPC-H и положила их в volume: pip install tpchgen-cli mkdir data tpchgen-cli -s 1 -f csv -o ...
2 недели назад
Одна из оптимизаций адаптивки
У меня есть много запросов вида "select ... from ... order by". В какой-то момент я заметила, что иногда джобы стартуют, а иногда нет, но считается все нормально. Но разобраться-то все равно интересно) ☕️ Я смотрю план запроса у таблиц. Initial Plan у них одинаковый - чтение, селект, сортировка: == Initial Plan == Sort +- Exchange +- Project +- BatchScan catalog.schema.table ☕️ Смотрю финальный план 1 таблица (запускает джобу): == Final Plan == AQEShuffleRead +- ShuffleQueryStage, Statistics(sizeInBytes=368.0 B, rowCount=1) +- Exchange +- * Project +- BatchScan catalog.schema...
3 недели назад
Мой первый инцидент
У нас есть процесс дежурств, где нужно следить за кластером, поднимать даги, помогать пользователям И вот уже вечер, все нормально, но внезапно выстрелил алерт. По одному стримингу сильно возросли лаги - накопилось много необработанных сообщений Я смотрю график - да, лаг прочитанных сообщений начал плавно возрастать, а потом улетел в бесконечность Я смотрю в кафку - данные приходят Я смотрю спарк приложение - оно running, тасочки выполняются Все работает, а данных нет 🤔🤔🤔 Детальнее углубляюсь в тасочки - все читается, но количество строк = 0 Смотрю на минимальный оффсет в кафке - а он сииильно дальше...
1 месяц назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала