Найти в Дзене
🔹 NoSQL vs SQL и pandas: итоги недели
🔹 Что выбрать для конкретной задачи — реляция, гибкость или единое хранилище? 🔸 NoSQL vs SQL появились потому что разные данные требуют разных компромиссов: SQL (Structured Query Language) даёт строгую схему и сильную согласованность, NoSQL (Not Only SQL) — гибкость и горизонтальную масштабируемость. Без правильного выбора данные быстро станут тяжёлыми для изменений и аналитики. 🔸 Data Lakehouse решает проблему дублирования и разрыва между сырыми данными и аналитикой: объединяет Data Lake и хранилище, чтобы хранить сырьё и одновременно давать структуру для BI...
24 минуты назад
🔹 Баланс для Data Engineer — не миф
🔹 Как не сгореть при on-call и постоянных миграциях? 🔸 Постоянные срочные инциденты и переключения контекста ломают рабочий ритм и ведут к выгоранию. Баланс нужен, чтобы сохранить качество данных и умение решать сложные баги без усталости. 🔸 Тайм-менеджмент: блоки глубокого фокуса, короткие окна для встреч и правила on-call (ограничение времени реакции, эскалации). Планируй рефакторинг вне on-call окон. ETL (Extract, Transform, Load) — ставь его в утренние окна, когда голова свежа. Mon-Fri...
7 часов назад
🔹 Persona в промпте: роль «эксперт» без хаоса
🔹 Как задать в запросе роль — например «эксперт» — и зачем это нужно? 🔸 Решение проблемы: без явной persona модель даёт разный уровень детализации и стиль. Persona фиксирует очки зрения и тон, чтобы ответы были последовательны и полезны. 🔸 Помещаем роль в system message (системное сообщение): коротко опишите роль, ограничения и стиль (role-play). Пример: system: "You are a Data Engineering expert. Отвечай как практикующий инженер, стиль — технический, кратко...
1 день назад
🔹 Гонка состояний: кто успеет первым
? 🔹 Что такое race condition и почему порядок (order) операций ломает результат? 🔸 Race condition — ошибка, когда параллельные задачи меняют общее состояние без синхронизации; результат зависит от непредсказуемого порядка выполнения, и данные «теряются» или становятся неконсистентными. 🔸 Симптомы: нерепродуцируемые баги, пропавшие обновления, поведение меняется с нагрузкой; встречается в потоках, процессах, асинхронном коде и транзакциях. 🔸 Locking и mutex (mutual exclusion — взаимное исключение) решают проблему, сериализуя доступ к критической секции...
2 дня назад
🔹 Data Governance: основы
🔹 Что решает управление данными? 🔸 Управление данными предотвращает хаос: без правил разные команды дают разные отчёты, модели работают на плохих данных и интеграции ломаются. 🔸 Политики — набор правил доступа, хранения и удаления данных; они ставят рамки безопасности и соответствия. 🔸 Качество — проверки на точность, полноту и актуальность; если его нет, аналитика и автоматизация приносят ошибочные решения. 🔸 Метаданные — карточки ресурса: таблица, поля, тип, уровень чувствительности...
3 дня назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала