Найти в Дзене
🔹 IT-рынок сильно меняется
🔹 IT-рынок сильно меняется 🔵Требования в вакансиях двигаются, стек уточняется, а привычное ощущение «вроде и так понятно, что учить» уже работает не всегда. Поэтому я решил подойти к вопросу практично: написал скрипт, который проанализировал рынок HeadHunter по направлению Data Engineering и в целом по вакансиям, связанным с Python, чтобы понять, какие навыки реально важны сейчас. Скрипт был собран и запущен 15 марта 2026 года, поэтому данные достаточно свежие. 🟢Сразу оговорюсь: в этой версии...
4 часа назад
🔹 Comprehension: меньше кода — больше смысла
🔹 Как быстрее создавать и читать list/dict в Python? 🔸 comprehension решает проблему громоздких циклов с временными переменными — одна строка заменяет создание пустого списка, цикл и append, код становится короче и легче читать. 🔸 list (список) через list comprehension удобно фильтровать и трансформировать данные; dict (словарь) через dict comprehension формирует пары ключ:значение без множества присваиваний. 🔸 генератор (generator)...
9 часов назад
🔹 Parquet или Delta: в какой момент нужно перестать экономить на простоте
? 🔵Parquet отлично подходит, когда всё просто: загрузил, прочитал, посчитал. Это быстрый, компактный и удобный формат для хранения данных. Но как только появляются update, delete, merge, CDC, откаты, контроль версий или параллельная запись — одного Parquet уже часто недостаточно. 🔵Delta Lake — это не замена Parquet, а слой поверх него. Данные по-прежнему хранятся в Parquet, но Delta добавляет transaction log, который делает таблицу управляемой и надёжной. 🟠Когда выбирать Parquet: — данные почти не меняются; — нужны простые readonly-выгрузки; — важна совместимость с разными инструментами...
1 день назад
🔹 Data Lake: куда складывать сырые данные и зачем
🔹 Хотите сохранить все raw data в одном месте и давать доступ разным командам без потери контекста? 🔸 Центральная цель — перестать дублировать источники и трансформации. Raw data хранится как есть, чтобы можно было перепроцессить или отладить результаты позже. 🔸 Организация: зоны — raw (immutable), processed/cleansed, curated. Часто реализуется на S3 (Amazon Simple Storage Service) как объектном хранилище; schema-on-read решает проблему разнородных форматов при big data. 🔸 Когда нужен Data...
1 день назад
🔹 Итоги недели: Data Lake, строки, фильтры
🔹 Что мы реально получили после пары занятий? 🔸 Data Lake — единое хранилище для сырых и обработанных данных: решает проблему разрозненных источников и дублирования, даёт гибкость schema-on-read; нужен при больших объёмах и разных форматах. 🔸 Python строки — основа очистки и парсинга в ETL (Extract, Transform, Load): без аккуратной работы поля будут кривые; используйте split/join/strip для нормализации перед загрузкой. 🔸 SQL WHERE — фильтрация на уровне базы данных уменьшает...
2 дня назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала