Найти в Дзене
Закреплено автором
CODERIKK
Немного познакомимся и я расскажу о себе и своем опыте. Меня зовут Егор, мне 26 лет 🫶🏼 Мои основные специализации: - Программист, разработчик - BI-аналитик, аналитик данных  - Data Scientist (DS, DA, DE) Имею 2-а красных диплома 📕 Опубликовано 11 научных статей 📚 Зарегистрировано 3 рационализаторских предложения 📔 Большой опыт работы с библиотекой Pandas и библиотекой визуализации Matplotlib. Имею опыт работы с NLP (обработка естественного языка) в данном направлении начинал работу с машинным обучением, например, такие задачи как классификация отзывов по темам и определение настроение пользователя. Занимался парсингом новостных сайтов и отзовиков, проводил анализ отзывов и мнений, поиск ошибок и неисправностей. XML парсинг RSS лент. Разработал несколько полноценных, полнофункциональных Telegram-bot'ов на основе ИИ - Python асинхронных библиотек с использованием ChatGPT с регистрацией, верификацией по почте и различными моделями взаимодействия и сохранением контекста, с проектированием, реализации и использовании баз данных PostgreSQL и MySQL, размещенный на своём сервере под управлением системы Ubuntu. Разработал Desktop утилит для торговых предложений, отслеживания товаров внутри одного предприятия на основе разработанного графического интерфейса. Дипломы написаны по теме "Computer Vision" основной задачей которых было обнаружение и идентификация личности или объекта задачи. Также интересной задачей был поиск погрешностей и отклонений процесса за счет средств технологии Graph Mining (Process Mining). Опыт работы с Docker, в связи с переносом проекта на различные НРТК (наземных робототехнических комплексов) на основе Raspberry PI и Arduino. Опыт написание простых сайтов на основе Flask с применением SQLAlchemy. Опыт работы с Git и свои репозитории на GitHub и GitLab. Навык работы с Linux. Знание алгоритмов машинного обучения, искусственного интеллекта, статистики, ООП. Работа с Yandex Cloud и DataLens. Все это только небольшая часть моего опыта 🤭 Подпишись на мой Telegram-канал и развивайся в сфере IT без курсов, все просто и наглядно: CODERIKK
2 года назад
🔹 IT-рынок сильно меняется
🔹 IT-рынок сильно меняется 🔵Требования в вакансиях двигаются, стек уточняется, а привычное ощущение «вроде и так понятно, что учить» уже работает не всегда. Поэтому я решил подойти к вопросу практично: написал скрипт, который проанализировал рынок HeadHunter по направлению Data Engineering и в целом по вакансиям, связанным с Python, чтобы понять, какие навыки реально важны сейчас. Скрипт был собран и запущен 15 марта 2026 года, поэтому данные достаточно свежие. 🟢Сразу оговорюсь: в этой версии...
2 часа назад
🔹 Comprehension: меньше кода — больше смысла
🔹 Как быстрее создавать и читать list/dict в Python? 🔸 comprehension решает проблему громоздких циклов с временными переменными — одна строка заменяет создание пустого списка, цикл и append, код становится короче и легче читать. 🔸 list (список) через list comprehension удобно фильтровать и трансформировать данные; dict (словарь) через dict comprehension формирует пары ключ:значение без множества присваиваний. 🔸 генератор (generator)...
7 часов назад
🔹 Parquet или Delta: в какой момент нужно перестать экономить на простоте
? 🔵Parquet отлично подходит, когда всё просто: загрузил, прочитал, посчитал. Это быстрый, компактный и удобный формат для хранения данных. Но как только появляются update, delete, merge, CDC, откаты, контроль версий или параллельная запись — одного Parquet уже часто недостаточно. 🔵Delta Lake — это не замена Parquet, а слой поверх него. Данные по-прежнему хранятся в Parquet, но Delta добавляет transaction log, который делает таблицу управляемой и надёжной. 🟠Когда выбирать Parquet: — данные почти не меняются; — нужны простые readonly-выгрузки; — важна совместимость с разными инструментами...
1 день назад
🔹 Data Lake: куда складывать сырые данные и зачем
🔹 Хотите сохранить все raw data в одном месте и давать доступ разным командам без потери контекста? 🔸 Центральная цель — перестать дублировать источники и трансформации. Raw data хранится как есть, чтобы можно было перепроцессить или отладить результаты позже. 🔸 Организация: зоны — raw (immutable), processed/cleansed, curated. Часто реализуется на S3 (Amazon Simple Storage Service) как объектном хранилище; schema-on-read решает проблему разнородных форматов при big data. 🔸 Когда нужен Data...
1 день назад
🔹 Итоги недели: Data Lake, строки, фильтры
🔹 Что мы реально получили после пары занятий? 🔸 Data Lake — единое хранилище для сырых и обработанных данных: решает проблему разрозненных источников и дублирования, даёт гибкость schema-on-read; нужен при больших объёмах и разных форматах. 🔸 Python строки — основа очистки и парсинга в ETL (Extract, Transform, Load): без аккуратной работы поля будут кривые; используйте split/join/strip для нормализации перед загрузкой. 🔸 SQL WHERE — фильтрация на уровне базы данных уменьшает...
2 дня назад
🔹 DE vs DS: почему путают и в чём разница
🔹 Почему Data Engineer (DE) и Data Scientist (DS) кажутся похожими? 🔸 Различать нужно потому, что без чётких ролей ломается продукт: неподготовленные данные, ненадёжные пайплайны и модели, которые не уходят в продакшн — это практическая проблема, которую решает разделение обязанностей. 🔸 Путают из‑за пересечения: и DE, и DS работают с аналитикой и ML-данными, используют похожие инструменты и обсуждают одни и те же метрики. 🔸 DE строит...
2 дня назад
🔹 Zero-shot vs Few-shot: куда вставлять примеры
? 🔹 Когда добавлять пример в промпт — всегда или по ситуации? 🔸 Zero-shot существует потому что иногда достаточно чёткой инструкции и контекста: модель делает выводы без примеров. Проблема без примеров — вывод непостоянен и формат может сломаться; Few-shot даёт образцы, чтобы стабилизировать поведение и формат ответа. 🔸 Разница в практике: Zero-shot = только инструкция + контекст (экономия токенов, простые задачи); Few-shot = добавляем 2–5 примеров...
3 дня назад
🔹 Последнее время я часто сталкиваюсь с CDC в SQL
🔹 Последнее время я часто сталкиваюсь с CDC в SQL. 🔹И если раньше его чаще упоминали где-то “рядом” с ETL и базами данных, то сейчас это уже одна из базовых тем, которую полезно понимать каждому, кто работает с данными. 🔸 CDC (Change Data Capture) — это подход, который позволяет отслеживать изменения в данных: что было добавлено, изменено или удалено в таблице. Проще говоря, CDC нужен для того, чтобы не перечитывать таблицу целиком каждый раз, а забирать только те данные, которые действительно изменились...
4 дня назад
🔹 Индексы в Базах Данных
🔹 Зачем нужны индексы — как они ускоряют запросы? 🔸 Без индекса база делает full table scan — читает все строки, что даёт линейный рост времени. В SQL (Structured Query Language) индекс уменьшает количество прочитанных строк и повышает скорость поиска. 🔸 B-tree (дерево с балансировкой) оптимизирован для точного поиска и диапазонов (WHERE =, BETWEEN, ORDER BY). Высота дерева ≈ log N, поэтому вместо O(N) получаем O(log N) по чтениям страниц. Используйте B-tree для фильтров и сортировок на колонке...
4 дня назад
🔹 Ищешь "лучший AI
🔹 Ищешь "лучший AI"? 🔵Значит, вопрос поставлен неправильно. В 2026 году нет одного лучшего инструмента для всего. Есть лучший под конкретную задачу. Ниже — мой практический топ по 5 сферам. 🟠Программирование: 1. Cursor — для агентной разработки прямо в IDE. 2. GitHub Copilot — универсальный вариант для VS Code и GitHub. 3. Claude Code — силён в больших кодовых базах, терминале и code review. 4. Windsurf — хорош, когда нужны многошаговые правки и “flow state”. 5. Gemini Code Assist — сильный вариант для Google/Firebase-стека, плюс есть бесплатный режим для individuals...
5 дней назад
🔹 Стратегии загрузки: full vs incremental — не тянуть весь мир
🔹 Когда делать full load, а когда incremental? 🔸 full load и incremental появились чтобы не перегружать источник и сеть: полная загрузка решает проблему простоты и согласованности, инкрементальная — уменьшает нагрузку и улучшает performance при больших объёмах. 🔸 full load = считываем всю таблицу заново; incremental = загружаем только новые или изменённые строки. CDC (Change Data Capture) — технология фиксации изменений, которая делает incremental точным и быстрым. 🔸 Используйте...
5 дней назад
🔹 Фильтрация в SQL: WHERE без страха
🔹 Как выбрать только нужные строки из таблицы? 🔸 WHERE решает проблему получения всех строк подряд — без фильтра вы вытягиваете лишние данные, нагружаете БД (база данных) и приложение. WHERE оставляет только релевантные записи. 🔸 Сравнения (=, <, >) в WHERE отбирают строки по условию. NULL — это неизвестное значение: col = NULL не сработает, используйте col IS NULL или col IS NOT NULL. 🔸 AND сужает выборку (все условия должны быть true)...
6 дней назад