Найти в Дзене
Закреплено автором
CODERIKK
Немного познакомимся и я расскажу о себе и своем опыте. Меня зовут Егор, мне 26 лет 🫶🏼 Мои основные специализации: - Программист, разработчик - BI-аналитик, аналитик данных  - Data Scientist (DS, DA, DE) Имею 2-а красных диплома 📕 Опубликовано 11 научных статей 📚 Зарегистрировано 3 рационализаторских предложения 📔 Большой опыт работы с библиотекой Pandas и библиотекой визуализации Matplotlib. Имею опыт работы с NLP (обработка естественного языка) в данном направлении начинал работу с машинным обучением, например, такие задачи как классификация отзывов по темам и определение настроение пользователя. Занимался парсингом новостных сайтов и отзовиков, проводил анализ отзывов и мнений, поиск ошибок и неисправностей. XML парсинг RSS лент. Разработал несколько полноценных, полнофункциональных Telegram-bot'ов на основе ИИ - Python асинхронных библиотек с использованием ChatGPT с регистрацией, верификацией по почте и различными моделями взаимодействия и сохранением контекста, с проектированием, реализации и использовании баз данных PostgreSQL и MySQL, размещенный на своём сервере под управлением системы Ubuntu. Разработал Desktop утилит для торговых предложений, отслеживания товаров внутри одного предприятия на основе разработанного графического интерфейса. Дипломы написаны по теме "Computer Vision" основной задачей которых было обнаружение и идентификация личности или объекта задачи. Также интересной задачей был поиск погрешностей и отклонений процесса за счет средств технологии Graph Mining (Process Mining). Опыт работы с Docker, в связи с переносом проекта на различные НРТК (наземных робототехнических комплексов) на основе Raspberry PI и Arduino. Опыт написание простых сайтов на основе Flask с применением SQLAlchemy. Опыт работы с Git и свои репозитории на GitHub и GitLab. Навык работы с Linux. Знание алгоритмов машинного обучения, искусственного интеллекта, статистики, ООП. Работа с Yandex Cloud и DataLens. Все это только небольшая часть моего опыта 🤭 Подпишись на мой Telegram-канал и развивайся в сфере IT без курсов, все просто и наглядно: CODERIKK
2 года назад
🔹 Итоги недели: Python & SQL
🔹 Что повторяли и зачем это полезно? 🔸 list comprehension существует чтобы заменять громоздкие циклы при трансформации коллекций: короче читать, меньше ошибок, удобно для быстрых промежуточных списков при обработке данных. 🔸 SQL подзапрос помогает выделить шаг агрегации или фильтрации отдельно от основной выборки: полезно когда нужно отфильтровать строки по результатам агрегата без лишних JOIN'ов. 🔸 joins решают проблему объединения связанных таблиц: используйте INNER для общих записей,...
10 часов назад
🔹 SLA — договор, который спасает продакшн
🔹 Как понять, что 99.9% — это много или мало для сервиса? 🔸 SLA нужен, чтобы согласовать ожидания и ответственность между командами и клиентами. Без него product, infra и data будут спорить о приоритетах и сроках реакции. 🔸 SLA (Service Level Agreement — соглашение об уровне сервиса) — контракт: какие метрики меряем, какой уровень сервиса, окна обслуживания и последствия за провал. Уровень сервиса прописывают явно. 🔸 Uptime — доля времени, когда сервис физически "в сети". Availability — практическая доступность для пользователей (учитывает деградации и таймауты)...
17 часов назад
🔹 Контекст vs температура — коротко
🔹 Как контекст и параметр temperature меняют ответы модели? 🔸 Контекст задаёт рамки: инструкции, примеры, формат. Без контекста модель "угадывает" намерение и выдаёт общие или неправильные ответы. Параметр температура управляет стохастичностью: низкая температура даёт консистентность, высокая — больше вариативности и неожиданных формулировок. 🔸 Практически: для точных задач (валидация, SQL, API-инструкции) ставьте temperature ≈ 0–0.2, чтобы получить предсказуемый результат. Для творческих задач — 0...
1 день назад
🔹 CAP: компромисс между доступностью и согласованностью
🔹 Как выбрать между доступностью и консистентностью при разделении сети? 🔸 CAP (Consistency — консистентность, Availability — доступность, Partition tolerance — разделение сети) существует потому что реальные сети ломаются; при partition нельзя одновременно ждать мгновенной синхронизации всех реплик и отвечать на все запросы без задержек. 🔸 Выбор консистентности (CP) означает, что некоторые запросы будут отклонены или задержаны при partition, но данные останутся согласованными. Выбор доступности (AP) — система отвечает всегда, но ответы могут быть устаревшими...
2 дня назад
🔹 Планирование ETL: расписания и зависимости
🔹 Как запускать ETL-пайплайн по расписанию и учитывать зависимости? 🔸 Суть: нужны регулярные запуски, чтобы данные были свежими, и контроль зависимостей, чтобы задачи не перекрывались и не приводили к неконсистентности данных. Без этого — дубли, гонки и неполные загрузки. 🔸 cron — это расписание по времени. Пример: 0 2 * * * запускает в 02:00. Подходит для простой периодичности, но cron не знает о порядке задач и не управляет retry. 🔸 DAG (Directed Acyclic Graph — направленный ацикличный граф) моделирует зависимости между задачами...
3 дня назад
🔹 NDA — это не «документ о молчании», а договор о границах информации
🔹 NDA — это не «документ о молчании», а договор о границах информации 🔵NDA (Non-Disclosure Agreement) — это соглашение о неразглашении: юридический договор, который определяет, какую информацию можно передавать только в доверительном порядке, кому, для каких целей и что нельзя делать с ней дальше. Такие соглашения используют в бизнесе, найме, переговорах, R&D, подрядных работах и при обмене чувствительными данными. 🟠 Что обычно “скрывает” NDA? Не всё подряд, а именно заранее определённую конфиденциальную...
4 дня назад
🔹 Подзапросы в SQL
🔹 Где можно ставить subquery и зачем? 🔸 subquery в SQL (Structured Query Language) позволяет вложить один запрос в другой, чтобы вычислить критерий или агрегат без множества временных таблиц. 🔸 В WHERE используются для фильтрации по набору (IN/EXISTS) когда условие зависит от другой таблицы. 🔸 В FROM — как derived table (временная таблица) для дальнейшей агрегации. В SELECT — скалярный subquery для одного вычисленного значения. WITH (CTE: Common Table Expression) делает такие шаги читаемыми и переиспользуемыми...
4 дня назад
🔹 Аудитория канала разная
🔹 Аудитория канала разная 🔵 И это нормально. Кто-то приходит сюда не ради обучения как такового, а ради чего-то полезного, интересного и живого. Кому-то важно лучше понять профессию и сферу IT. Кому-то интересно наблюдать за мной, моим путём, мыслями, опытом и тем, как я смотрю на работу и развитие. А кто-то действительно приходит сюда учиться, забирать знания, подходы и практику. 🔵При этом уровень внутри IT у всех разный: #Junior, #Middle, #Senior или порой вовсе даже не IT-специалист. Кстати, уровень почти всегда отражается в постах — в последнем хэштеге...
5 дней назад
🔹 IT-рынок сильно меняется
🔹 IT-рынок сильно меняется 🔵Требования в вакансиях двигаются, стек уточняется, а привычное ощущение «вроде и так понятно, что учить» уже работает не всегда. Поэтому я решил подойти к вопросу практично: написал скрипт, который проанализировал рынок HeadHunter по направлению Data Engineering и в целом по вакансиям, связанным с Python, чтобы понять, какие навыки реально важны сейчас. Скрипт был собран и запущен 15 марта 2026 года, поэтому данные достаточно свежие. 🟢Сразу оговорюсь: в этой версии...
5 дней назад
🔹 Comprehension: меньше кода — больше смысла
🔹 Как быстрее создавать и читать list/dict в Python? 🔸 comprehension решает проблему громоздких циклов с временными переменными — одна строка заменяет создание пустого списка, цикл и append, код становится короче и легче читать. 🔸 list (список) через list comprehension удобно фильтровать и трансформировать данные; dict (словарь) через dict comprehension формирует пары ключ:значение без множества присваиваний. 🔸 генератор (generator)...
5 дней назад
🔹 Parquet или Delta: в какой момент нужно перестать экономить на простоте
? 🔵Parquet отлично подходит, когда всё просто: загрузил, прочитал, посчитал. Это быстрый, компактный и удобный формат для хранения данных. Но как только появляются update, delete, merge, CDC, откаты, контроль версий или параллельная запись — одного Parquet уже часто недостаточно. 🔵Delta Lake — это не замена Parquet, а слой поверх него. Данные по-прежнему хранятся в Parquet, но Delta добавляет transaction log, который делает таблицу управляемой и надёжной. 🟠Когда выбирать Parquet: — данные почти не меняются; — нужны простые readonly-выгрузки; — важна совместимость с разными инструментами...
6 дней назад
🔹 Data Lake: куда складывать сырые данные и зачем
🔹 Хотите сохранить все raw data в одном месте и давать доступ разным командам без потери контекста? 🔸 Центральная цель — перестать дублировать источники и трансформации. Raw data хранится как есть, чтобы можно было перепроцессить или отладить результаты позже. 🔸 Организация: зоны — raw (immutable), processed/cleansed, curated. Часто реализуется на S3 (Amazon Simple Storage Service) как объектном хранилище; schema-on-read решает проблему разнородных форматов при big data. 🔸 Когда нужен Data...
6 дней назад