CODERIKK | Дзен

🔹 Throughput vs Latency — кто кому уступает

? 🔹 Жертвовать ли задержкой ради пропускной способности? 🔸 В DE (Data Engineering) пайплайнах проблема в том, что ресурсы ограничены: нужно либо обрабатывать много данных (throughput), либо отвечать быстро на каждое событие (latency). Без этого выбор приведёт к задержкам в аналитике или к недостаточной скорости отклика для реального времени. 🔸 Когда оптимизировать throughput: batch-процессы (ежечасные ETL, загрузка больших файлов). Если задача — накопить и обработать терабайты с минимальной стоимости, берём высокую throughput и агрегируем пакеты...

18 часов назад

🔹 Итоги недели: многопоточность и оптимизация

🔹 Как threading, GIL и asyncio влияют на оптимизацию кода? 🔸 threading нужен, чтобы параллельно выполнять операции и не простаивать во время ожидания I/O (input/output); без него сеть или диск блокируют поток и приложение тормозит. 🔸 GIL (Global Interpreter Lock) — ограничение CPython, которое мешает настоящему параллелизму для CPU (Central Processing Unit)-bound задач; для тяжёлых вычислений выбирай multiprocessing или нативные расширения. 🔸 asyncio эффективен для множества одновременных...

1 день назад

🔹 Bootcamp vs self-learning для Data Engineer (middle

) 🔹 Стоит ли идти на bootcamp или учить всё самостоятельно (self-learning)? 🔸 Почему выбор важен: без структуры часто тормозишь — недоделанные проекты и пустое резюме. Bootcamp решает проблему скорости и менторской поддержки, self-learning — проблему глубины и экономии. 🔸 Когда bootcamp помогает: быстро собрать портфолио, получить сертификаты и интервью‑вход; полезен, если нужна дисциплина или нужно выйти на рынок за 2–4 месяца. 🔸 Когда self-learning лучше: если хотите копать глубже или экономить...

1 день назад

🔹 Метрики качества ответов LLM

🔹 Как понять, хорош ли ответ генеративной модели (LLM — large language model)? 🔸 Метрики нужны, чтобы быстро ловить регрессии и сравнивать версии модели: автоматические дают сигнал на CI, человек проверяет факты и полезность. 🔸 BLEU и ROUGE измеряют n‑gram overlap с эталонными ответами: BLEU — «precision» совпадающих фрагментов, ROUGE — «recall/длинная общая подпоследовательность». Работают, когда есть надёжные референсы, но пропускают корректные парафразы. Пример: эталон «Кошка сидит на ковре», кандидат «На ковре сидит кошка» — высокая перекрываемость, но семантика может быть сложнее...

2 дня назад

🔹 Нормализация данных: зачем и как

🔹 Что решает нормализация? 🔸 Нормализация нужна чтобы убрать избыточность и аномалии обновления: без неё данные дублируются и при изменении возникают рассинхроны. Нормализация снижает ошибки и упрощает поддержку. 🔸 1NF (первая нормальная форма) — поля атомарны: нельзя хранить списки в одном столбце. Users(id, name, phones) -- phones: "111,222" Нормализация: Users(id, name) Phones(user_id, phone) 🔸 2NF (вторая нормальная форма) — для таблиц с составным ключом: убираем частичные зависимости, выносим данные, зависящие от части ключа, в отдельные таблицы...

3 дня назад