Статьи
Компания ВТБ — один из лидеров на российском рынке, который предоставляет аналитикам возможность развиваться в банкинге и работать над крупными бизнес-проектами страны. Сейчас открыт набор на программу "РОСТ" по направлению аналитика. Кандидатам предлагают: — зарплату 100 000 рублей на старте программы и трудоустройство по ТК; — ДМС, корпоративный спорт и бонусы; — личный план развития и поддержку ментора; — участие в реальных проектах в офисе или в гибридном формате; — разные направления на выбор: координация и сопровождение цифровых каналов, цифровые витрины, анализ данных и моделирование, риски и другие. Из интересного — задачи на программе: — проектирование и разработка цифровых витрин; — развитие инструментов геймификации; — автоматизация и моделирование крупных бизнес-процессов. Короче, это отличное место для старта карьеры в аналитике! Присоединиться к команде ВТБ можно тут: https://u.to/OOy4IA Реклама, ПАО "ВТБ", ИНН 7702070139. erid: 2VtzqxhndfU
1 прочтение · 2 дня назад
Начитаешься таких статей про подключения из одной базы данных в другую и думаешь «а может ETL вообще не нужен 😅» 🔗 dblink для подключение из Postgres к другим БД 🔗 Интеграция Postgres и Hadoop Все это конечно хорошо, но применение зависит от поставленных задач. Большая часть практических кейсов все равно требует полноценного ETL пайплайна, где не обойтись выполнением запросов к одной БД из другой
1 прочтение · 2 дня назад
⭐️ Хакатон ARCHI.Tech от ВТБ – уникальный шанс сделать проект в роли ИТ-архитектора. Приглашаем начинающих и опытных ИТ-специалистов – студентов и выпускников технических вузов, разработчиков, архитекторов, аналитиков. 🔹 Выбирайте задачу любого уровня — простую, среднюю или сложную 🔹 Собирайте архитектурные артефакты, спрятанные в заданиях, и зарабатывайте баллы 🔹 Презентуйте свои решения экспертам ВТБ 🔹 Не упустите возможность решить «разминочную» задачу и получить дополнительные баллы 🔹 Заработанные баллы, найденные артефакты и коэффициент сложности задачи помогут определить победителей 🔹 Три категории: «Архитектор стрима», «Архитектор системы» и «Архитектор данных»… 🔹… и три призовых места в каждой 🔹 Лучшие из лучших разделят призовой фонд в 1 200 000 рублей! Начало предварительного этапа – 14 июня. Соревнование стартует 28 июня – у участников будет 24 часа на решение задачи. 👉 Продемонстрируй свои знания об архитектуре – участвуй в ARCHI.Tech от ВТБ: https://cnrlink.com/architechvtbdatastudy Реклама. БАНК ВТБ (ПАО). ИНН 7702070139. erid: LjN8KTUta
1 прочтение · 3 дня назад
Сегодня начали собесить стажеров в нашу команду, до конца недели ребята уже получат решение по приглашению на стажировку в Сравни 👨‍💻 Кто пропустил, Сравни запускает летнюю стажировку по направлению аналитики данных и продуктовой аналитике. Вот здесь писал об этом 📍Отличная новость для тех кто еще не подал заявку - старт стажировки сдвигается на 1 июля, чтобы все комфортно могли стартовать после сдачи сессий, дипломов и т.п. Оставляйте заявку, решайте тестовые задания, и возможно с вами уже скоро начнем работать в одном коллективе 😉
1 прочтение · 4 дня назад
Хорошо что магазин прямо в доме под крышей и никакая погода не остановит чтобы выйти за вкусняшкой к чаю 😎🧑‍💻 #люблюудаленку
1 прочтение · 1 неделю назад
Подборка курсов по инжинирингу данных Делюсь ссылками на курсы, которые сам смотрел еще года 3 назад, когда было меньше проблем в мире, в том числе с доступами к сервисам без VPN. Сейчас придется открывать ссылки ниже именно под VPN Материалы курсов на английском языке 📍IBM Data Engineering Professional Certificate Набор курсов по Python, SQL, ETL инструментам (Airflow, Kafka, Spark) с теорией и практическими задачами в виде мини-проектов. Можно проходить бесплатно без получения сертификата. Если хотите сертификат, нужно будет заплатить, а также успешно выполнить итоговый проект 📍Data Engineering, Big Data, and Machine Learning on GCP Набор курсов в виде специализации от Google, обучение технологиям показано на из облачной платформе Google Cloud Platform (GCP). Для тех кто работает/хочет работать в иностранных компаниях - отличный повод изучить сервисы GCP и покрутить их на практических задачах. Также как и в прошлом курсе можно смотреть все бесплатно, а для получения сертификата нужно платить 📍Advance Your Data Engineering Skills Набор учебных курсов для прокачки работы с Apache Spark, работы с сервисами AWS (Amazon Web Services), подтягивание Python алгоритмов и структур данных. Также есть уроки по Snowflake и даже подготовка к получению сертификата Microsoft Azure Data Engineering (DP-203) Ставим 👍 если кто-то решил отложить описанные курсы на «потом» и возможно к ним никогда так и не приступит 😉
1 прочтение · 1 неделю назад
Радуюсь за каждого своего ученика больше чем за себя 🔥🎉💪 Давайте накидаем 🔥 Дарье за её успех и пожелаем профессионального развития 👩‍💻
Что может быть лучше чем записаться на Тех. Обслуживание в воскресенье на 8:00 😅 Пытаюсь активировать мозг с помощью кофе и просмотра «Декларации» (👍 кто тоже смотрит)
1 прочтение · 2 недели назад
🚀 Автоматическое распределение задач ETL в Python с Celery 🔹 Что такое Celery? Celery - это мощная система распределенных очередей задач, разработанная для асинхронной работы и обработки данных. 🔹 Почему Celery используется в ETL? ETL задачи иногда требуют значительных ресурсов и времени. Celery позволяет распределить эти задачи между несколькими воркерами, оптимизируя время обработки и увеличивая эффективность системы. ✅ Преимущества Celery: - ✔ Распределенные задачи: Celery с легкостью распределяет задания по воркерам, что уменьшает время обработки. - ✔ Асинхронность: Нет необходимости дожидаться завершения предыдущей задачи, что ускоряет ETL процесс. - ✔ Масштабируемость: В вашей системе может работать столько воркеров, сколько необходимо – просто добавляйте их по мере роста вашего проекта. - ✔ Устойчивость: Если один из воркеров выйдет из строя, Celery перенаправит задание другому, обеспечивая бесперебойную работу. - ✔ Персистентность результатов: С Celery вы можете сохранять результаты ваших задач в базу данных или кэш, что упрощает мониторинг их выполнения. 💡 Как это работает? Вы определяете задачи ETL, а Celery принимает на себя распределение их по рабочим узлам, работающим параллельно. Вы получаете результаты быстрее и можете лучше управлять ресурсами. 🔗 Статья про ETL с помощью Django и Celery 🔗 Работа Celery Worker в Apache Airflow 🔗 Еще немного теории и практики с кодом про Celery
1 прочтение · 2 недели назад
🔍 ETL с помощью SQL: Полная перегрузка данных (Full Reload) Привет! В сегодняшней публикации рассмотрим процесс полной перегрузки данных между двумя таблицами: исходной (source) и целевой (target) с помощью SQL. Full reload (полная перезагрузка данных в таблице) является одним из способов пакетной (batch) передачи данных. Существуют другие способы инкрементальной загрузки, о которых напишу в следующих постах. 🔄 Первый шаг: Очистка целевой таблицы (target) Перед началом перегрузки важно убедиться, что целевая таблица пуста, чтобы избежать дублирования данных. TRUNCATE TABLE target; 📊 Второй шаг: Вставка данных в целевую таблицу (target) Затем осуществляем перенос данных с помощью простого SQL запроса, который считывает все данных из source таблицы и делает вставку в target INSERT INTO target SELECT * FROM source; ✅ Третий шаг: Проверка успешности перегрузки После выполнения перегрузки проверяем, что количество записей совпадает в обеих таблицах. Это самый простой способ убедиться, что данные в source и target таблицах совпадают (по объему). При необходимости можно написать и другие проверки из этого поста, например на контрольные суммы. SELECT COUNT(*) FROM source; SELECT COUNT(*) FROM target; Следуя этим 3 простым шагам, вы сможете эффективно осуществить полную перегрузку данных, что является важной частью ETL-процессов. Full reload применяется обычно при существовании одного из следующих факторов: ✏️ при первой загрузке данных ✏️ внесены существенные изменения в структуру таблицы или в сами значения данных ✏️ специфика данных в source такая, что при каждой загрузке следует загружать либо бОльшую часть данных, либо всю таблицу целиком ✏️ структура данных такая сложная или наоборот сильно простая, что невозможно корректно определить инкремент для частичной загрузки, поэтому стоит перегружать все целиком 🔥 если пост понравился
2 прочтения · 2 недели назад
Проходить собеседования — это навык. Если в 2024-м вы хотите — меньше волноваться на собесах, — эффективнее отвечать на вопросы и грамотно задавать их, читайте канал про собеседования в IT, где собран опыт и кандидата, и работодателя. —————— 🔹Булат ходит на собесы из азарта и интереса и пишет, что да как: какие были этапы, какие задавали вопросы. Лонгрид раз — про интервью к поставщику и разработчику технологий для бирж Два — про интервью в финтех Три — в Medtech 🔹Булат сам нанимает сотрудников и рассказывает, почему кандидату отказали. Лонгрид раз — про закрытые ответы Два — про улыбку и болтовню Три — про кандидата, который спорил ————— ✅Подписывайтесь, чтобы быть готовыми к собеседованию, а в случае отказа — сохранять здравую самооценку. https://t.me/tryoutonadancefloor 👆
2 прочтения · 3 недели назад
Совместное использование Python и SQL для анализа данных SQL остается непревзойденным стандартом для взаимодействия с реляционными БД, предоставляя обширные операции DML и DDL для эффективного манипулирования данными внутри структурированных хранилищ и баз данных. В отличие от SQL, Python является программным языком общего назначения, что даёт возможность извлечения данных из множества источников, например API-интерфейсы, файловые системы, внешние сервисы или даже документы и изображения. Python поддерживает разнообразие форматов данных, от JSON и XML до CSV и бинарных форматов, обеспечивая гибкость и универсальность в аналитических задачах. Объединение SQL и Python в данном контексте предполагает использование SQL для прямого доступа к реляционным базам данных и последующее применение Python для комплексной обработки и анализа результата. Существует библиотека sqlalchemy (и другие), позволяющая подключаться к базам данных и вызывать SQL запросы внутри Python кода. Результат запросов можно удобно и быстро записывать в структуру Pandas DataFrame для дальнейшего анализа. Таким образом, владение Python в дополнение к SQL значительно расширяет арсенал инструментов аналитика данных, давая простор для машинного обучения, статистической обработки и создания продвинутых аналитических отчётов. Что в итоге 🔎 SQL - для работы с данными внутри реляционный базы данных и структурированного хранилища данных. 🐍 Python - возможность работы с данными из разных источников в разных форматах для решения широкого спектра задач. Развивайте глубокие знания обеих технологий, чтобы эффективно управлять данными и извлекать из них максимальную ценность 🚀