Найти в Дзене
Закреплено автором
CODERIKK
Немного познакомимся и я расскажу о себе и своем опыте. Меня зовут Егор, мне 26 лет 🫶🏼 Мои основные специализации: - Программист, разработчик - BI-аналитик, аналитик данных  - Data Scientist (DS, DA, DE) Имею 2-а красных диплома 📕 Опубликовано 11 научных статей 📚 Зарегистрировано 3 рационализаторских предложения 📔 Большой опыт работы с библиотекой Pandas и библиотекой визуализации Matplotlib. Имею опыт работы с NLP (обработка естественного языка) в данном направлении начинал работу с машинным обучением, например, такие задачи как классификация отзывов по темам и определение настроение пользователя. Занимался парсингом новостных сайтов и отзовиков, проводил анализ отзывов и мнений, поиск ошибок и неисправностей. XML парсинг RSS лент. Разработал несколько полноценных, полнофункциональных Telegram-bot'ов на основе ИИ - Python асинхронных библиотек с использованием ChatGPT с регистрацией, верификацией по почте и различными моделями взаимодействия и сохранением контекста, с проектированием, реализации и использовании баз данных PostgreSQL и MySQL, размещенный на своём сервере под управлением системы Ubuntu. Разработал Desktop утилит для торговых предложений, отслеживания товаров внутри одного предприятия на основе разработанного графического интерфейса. Дипломы написаны по теме "Computer Vision" основной задачей которых было обнаружение и идентификация личности или объекта задачи. Также интересной задачей был поиск погрешностей и отклонений процесса за счет средств технологии Graph Mining (Process Mining). Опыт работы с Docker, в связи с переносом проекта на различные НРТК (наземных робототехнических комплексов) на основе Raspberry PI и Arduino. Опыт написание простых сайтов на основе Flask с применением SQLAlchemy. Опыт работы с Git и свои репозитории на GitHub и GitLab. Навык работы с Linux. Знание алгоритмов машинного обучения, искусственного интеллекта, статистики, ООП. Работа с Yandex Cloud и DataLens. Все это только небольшая часть моего опыта 🤭 Подпишись на мой Telegram-канал и развивайся в сфере IT без курсов, все просто и наглядно: CODERIKK
2 года назад
🔹 ETL — три шага, которые спасают данные
🔹 Что такое ETL и зачем он нужен? (ETL — Extract (извлечение), Transform (преобразование), Load (загрузка)) 🔸 Решает проблему разбросанных и «грязных» данных: без ETL сложно собрать данные из разных систем, привести форматы и получить надёжную таблицу для аналитики. 🔸 Extract — считывание данных из источников (БД, API, файлы). Нужен, чтобы получить исходное «сырое» состояние; без него нечего обрабатывать. 🔸 Transform — очистка, нормализация, агрегации и бизнес-логика. Пример: привести даты к ISO, удалить дубли, посчитать KPI — здесь данные становятся полезными...
7 часов назад
🔹 LIMIT и OFFSET: как вернуть N строк и не убить производительность
🔹 Как ограничить количество возвращаемых строк и сделать пагинацию? 🔸 Ограничить результат нужно, чтобы не отправлять все строки клиенту и не перегружать БД — экономия CPU, памяти и трафика. 🔸 LIMIT задаёт, сколько вернуть; OFFSET — сколько пропустить. В SQL (Structured Query Language) пример: SELECT id, name FROM users ORDER BY id LIMIT 20 OFFSET 40; 🔸 OFFSET становится дорогим при больших смещениях: СУБД сканирует и пропускает строки, тратя ресурсы...
1 день назад
🔹 Дубли и дедупликация: практическое
🔹 Как найти и удалить duplicate при загрузке данных? 🔸 Дубли появляются когда одна и та же сущность попадает в поток несколько раз — это ломает агрегаты, нарушает уникальные ключи и увеличивает хранилище. 🔸 distinct (DISTINCT) убирает полные повторы строк на чтении, но сравнивает весь набор столбцов и на больших объёмах будет дорогим по времени и памяти. 🔸 Используйте row_number (ROW_NUMBER()) чтобы пометить повторяющиеся группы по ключу и оставить одну запись по правилу (например, самая свежая)...
1 день назад
🔹 LIMIT и OFFSET: вернуть только нужные строки
🔹 Как ограничить количество возвращаемых строк и делать pagination без перегрузки БД? 🔸 Нужна быстрая выдача и экономия трафика: если возвращать все строки — рост latency и нагрузка на БД. LIMIT и OFFSET решают эту проблему, выдавая только часть данных. 🔸 LIMIT задаёт максимум строк, OFFSET пропускает N строк — это удобно для pagination (постраничной навигации). 🔸 Пример: как выглядит SQL на практике: SELECT id, name FROM users ORDER BY id LIMIT 10 OFFSET...
2 дня назад
Честно говоря, я долго откладывал ВКонтакте
⚙️ Казалось — ну зачем, есть Telegram, всё работает, аудитория там. Но потом начались ограничения, и я подумал: а почему бы не подстраховаться? Тем более я люблю автоматизировать всё, до чего дотянутся руки! Так началась моя история с VK API… 🔸 Первое, с чем столкнулся — токены. ВКонтакте различает два типа: токен сообщества (вечный, публикует от имени группы) и пользовательский (живёт 24 часа, но нужен для загрузки фото). Я по наивности начал с пользовательского — «он же полный». Итог предсказуемый: утром крон запускается, токен протух за ночь, пост не выходит...
2 дня назад
🔹 Lambda, map, filter — быстрый разбор
🔹 Нужен компактный inline-код для обработки коллекций? 🔸 lambda — маленькая анонимная функция для передачи в другие функции. Убирает лишние def, когда нужна простая логика, и держит код локальным. 🔸 map применяет функцию к каждому элементу и возвращает итератор. Когда нужно преобразовать все элементы без явных циклов. 🔸 filter оставляет элементы, для которых предикат True. Полезно фильтровать поток данных до агрегации. nums = [1, 2,...
3 дня назад
🔹 Память в Big Data: как не уронить процесс
🔹 Почему процесс падает по памяти при обработке гигантских наборов данных? 🔸 Загружая всё в память (списки, DataFrame, буферы), вы быстро достигаете лимита: ОС убивает процесс или сборщик мусора (garbage collection) начинает тратить много времени на освобождение — задержки и краши. 🔸 Chunk processing (обработка кусками) решает это: читаем/обрабатываем порцию данных, освобождаем память, переходим к следующей порции. Это нужно, когда размер данных > доступной RAM. 🔸 Stream-подход (потоковая обработка) — читать, преобразовать, отправить дальше без накопления...
4 дня назад
🔹 Итоги недели: потоки, оркестрация и декораторы
🔹 Как связать Kafka, оркестрацию и Python-декораторы в мини-проекте? 🔸 Потоки и ETL (Extract, Transform, Load) нужны, чтобы принимать данные онлайн и разгружать систему: без них — задержки пакетной обработки, потеря событий и тесная связка сервисов. 🔸 Kafka vs Pub/Sub: Kafka — распределённый журнал событий с контролем порядка и высокой пропускной способностью; Pub/Sub — управляемый сервис с авто‑масштабированием. Выбор влияет на операционную нагрузку и гарантии доставки. 🔸 Airflow DAG (Directed...
5 дней назад
🔹 Стереотип: DE — скучно
? 🔹 Почему роль Data Engineer (DE) кажется рутинной, но на деле нет? 🔸 DE нужен чтобы привести грязные данные в порядок и сделать их доступными для analytics — без этого аналитика и ML не работают, и бизнес теряет инсайты. 🔸 Роль кажется скучной из‑за рутины: мониторинг, пайплайны, багфиксинг — эти задачи скрывают риск и экономят компании миллионы, но сами по себе повторяемы. 🔸 automation — место для творчества: автоматизируешь сбор, тесты схем, деплой пайплайнов и каждое улучшение освобождает часы команды...
5 дней назад
🔹 Оценка ответов LLM: метрики и смысл
🔹 Почему одни метрики высоки, а ответ всё равно плох? 🔸 Перплексия (perplexity) — показывает, насколько модель "удивляется" тексту; решает задачу диагностики обучения: низкая перплексия значит модель лучше предсказывает токены, но она не гарантирует правдивость или пригодность ответа. 🔸 BLEU (Bilingual Evaluation Understudy) — считает совпадения n‑грам с эталоном; полезен для проверки поверхностного сходства; плохо работает с парафразами. Пример: эталон "Он купил книгу", кандидат "Книга была куплена им" — семантически OK, BLEU низкий...
6 дней назад
🔹 Очередь vs топик: когда pub/sub не равно queue
🔹 Чем отличается queue и pub/sub (publish-subscribe) на практике? 🔸 Нужда: иногда нужно распределить поток задач между воркерами, а иногда — разослать одно событие многим подписчикам. Без этой грани вы либо дублируете работу, либо теряете массовую рассылку. 🔸 Поведение: queue — каждый message уходит ровно одному consumer (балансировка нагрузки). pub/sub — broker (message broker) дублирует сообщение всем active subscribers (широковещание)...
1 неделю назад
🔹 Data Catalog: найти данные без телепатов
🔹 Как быстро понять, где нужные таблицы и кто за них отвечает? 🔸 Без catalog люди теряют часы: дублируют датасеты, делают неверные агрегаты, теряется traceability и governance становится формальностью. Это причина существования metadata-хранилищ — чтобы убрать угадывание и ошибки. 🔸 Catalog сохраняет metadata — описание, схему, теги, владельца и lineage; даёт быстрый search по колонкам, тегам или owner; связывает данные с governance-политиками и SLA, чтобы можно было доверять источнику...
1 неделю назад