Найти в Дзене
🔹 Data Governance: основы
🔹 Что решает управление данными? 🔸 Управление данными предотвращает хаос: без правил разные команды дают разные отчёты, модели работают на плохих данных и интеграции ломаются. 🔸 Политики — набор правил доступа, хранения и удаления данных; они ставят рамки безопасности и соответствия. 🔸 Качество — проверки на точность, полноту и актуальность; если его нет, аналитика и автоматизация приносят ошибочные решения. 🔸 Метаданные — карточки ресурса: таблица, поля, тип, уровень чувствительности...
19 часов назад
🔹 NULL: не баг, а состояние
🔹 Как работать с NULL в SQL (Structured Query Language)? 🔸 NULL обозначает отсутствие или неизвестность значения. Без него вы не отличите "пустую строку" от "нет данных", и это ломает подсчёты, джойны и логические проверки. 🔸 Для проверки используйте IS NULL / IS NOT NULL. Сравнение с = NULL не работает — возвращает NULL, а не true/false, и даёт неверные результаты. 🔸 COALESCE возвращает первый ненулевой аргумент и подставляет дефолт вместо сложных CASE-ов — удобно при выдаче значений по умолчанию...
1 день назад
🔹 Срезы списков и строк — быстро
🔹 Как взять часть строки или списка без копирования всей структуры? 🔸 Срез (slice) нужен, чтобы взять подпоследовательность: start:end задают границы. Это решает проблему длинных ручных циклов и лишних временных переменных. 🔸 Отрицательный индекс (negative index) считает с конца: -1 — последний элемент, -2 — предпоследний. Удобно, когда нужен конец без вызова len(). 🔸 step управляет шагом: start:end:step...
2 дня назад
🔹 Мониторинг задержек данных — гонка с часами
🔹 Как в реальном времени отслеживать data latency (задержку данных)? 🔸 Data latency нужна, чтобы заметить, когда потоки или ETL дают устаревшие данные — без этого отчёты и ML модели будут работать с «прошлой» картиной и бизнес примет неверные решения. 🔸 Как измерять: метрика lag = now() - max(event_time) по источникам/партициям; собирайте её регулярно и храните как time-series. SELECT source, now() - max(event_time) AS lag FROM events GROUP BY source; 🔸 Monitoring: в dashboard...
3 дня назад
🔹 Итоги недели: практические штрихи
🔹 Что разобрали и зачем это важно? 🔸 OLTP (Online Transaction Processing) vs OLAP (Online Analytical Processing): существуют чтобы разделять нагрузку — OLTP для быстрых операций (покупки, записи), OLAP для тяжёлой аналитики. Без разделения аналитика замедлит операции и исказит отчёты. 🔸 SQL (Structured Query Language) инъекция: проблема — неподготовленный ввод позволяет менять запросы и красть/портить данные. Защищаемся параметризированными запросами, ORM и строгой валидацией входа. 🔸 Python списки: зачем — гибкая упорядоченная коллекция для накопления и обработки данных...
4 дня назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала