Найти в Дзене
AI SDK для Apache AirFlow: оркестрация LLM-задач
Как LLM упрощают работу дата-инженера: новые декораторы TaskFlow API в Apache Airflow для внедрения больших языковых моделей в DAG. Обзор Airflow AI SDK на основе Pydantic AI с практическим примером про анализ отзывов. Мультимодальность современных инструментов машинного обучения, когда одна ML-модель может принимать на вход данные разного формата и характера (изображения, текст и аудио) позволяет быстрее получить результат прогнозирования или классификации благодаря расширению контекста. Благодаря...
6 дней назад
2 режима асинхронной вставки данных в ClickHouse и адаптивная очистка буфера
Как избежать потери данных при асинхронной вставке в Clickhouse при сбое сервера и зачем в версию 24.2 добавлен адаптивный тайм-аут очистки буфера: тонкости ETL с колоночной СУБД. Недавно мы рассказали, чем хороши асинхронные вставки в ClickHouse и отметили, что при их использовании можно настроить параметр возврата подтверждения wait_for_async_insert. Напомним, в отличие от синхронной вставки, при асинхронной данные сперва вставляются в буфер, а затем записываются в хранилище базы данных позже. Это переносит пакетирование данных со стороны клиента на сторону сервера, т...
6 дней назад
Что такое HTAP: гибридная транзакционно-аналитическая обработка
Можно ли сочетать OLAP и OLTP-нагрузки в едином хранилище и как это сделать: гибридная транзакционно-аналитическая обработка в базах данных, возможности и проблемы этой архитектуры. Исторически хранилища данных принято делить на OLAP и OLTP с учетом их оптимизации для аналитических и транзакционных нагрузок. OLTP-системы (Online Transaction Processing) оптимизированы для обработки большого количества транзакций в режиме реального времени. Они обеспечивают быстрое выполнение операций вставки, обновления и удаления данных, поддерживая целостность и надежность транзакций...
1 неделю назад
Синхронные и асинхронные вставки данных в ClickHouse
Чем синхронная вставка в ClickHouse отличается от асинхронной и как это настроить: лучшие практики и риски загрузки данных в колоночное хранилище. Хотя скорость вставки данных в ClickHouse зависит от множества факторов, ее можно ускорить за счет асинхронных вставок, если предварительное пакетирование на стороне клиента невозможно. Таблицы ClickHouse предназначены для приема миллионов вставок строк в секунду и хранения сотен петабайт данных. Такая высокая пропускная способность приема обычно требует соответствующей пакетной обработки данных на стороне клиента...
1 неделю назад
Публикация очень больших сообщений в Apache Kafka
Почему не рекомендуется публиковать в Kafka сообщения больших размеров, и как это сделать, если очень нужно: когда приходится перенастраивать конфигурации продюсера, топика и потребителя, и какие это параметры. Apache Kafka, как и другие брокеры сообщений, оптимизирована для передачи данных небольшого размера. Обычно это текстовые форматы (JSON, AVRO, protobuf, XML и пр.), а не мультимедиа. Это ограничение обусловлено самим назначением брокера сообщений, который должен обеспечить асинхронную интеграцию приложений в почти реальном времени...
1 неделю назад
Как ускорить вставку данных в ClickHouse с помощью формата, сжатия и интерфейса передачи
Как именно формат, сортировка, сжатие и интерфейс передачи данных в ClickHouse влияют на скорость операций загрузки: бенчмаркинговое сравнение от разработчиков колоночной СУБД. Продолжая недавний разговор про вставку данных в ClickHouse, сегодня рассмотрим, ключевые факторы, которые особенно сильно влияют на скорость загрузки данных в это колоночное хранилище. Бенчмаркинговое исследование, проведенное разработчиками ClickHouse, показывает, что наибольший вклад в скорость загрузки вносят формат данных, алгоритм их сжатия и интерфейс передачи...
1 неделю назад
Что влияет на скорость вставки данных в ClickHouse: главные факторы
Как выполняется вставка данных в ClickHouse, от чего зависит ее скорость и каким образом ее повысить: последовательность операций загрузки и ее оптимизации. Поскольку ClickHouse часто используется для построения хранилищ или витрин данных, скорость загрузки данных в эту базу очень важна. Хотя на время вставки данных в ClickHouse влияют множество факторов, включая настройки ETL/ELT-движков, с точки зрения самого колоночного хранилища можно выделить следующие ключевые категории, определяющих скорость...
2 недели назад
НФТ к производительности: расчет нагрузки в rps на практическом примере
Как рассчитать нагрузку в rps и задать нефункциональные требования к производительности в точных цифрах: калькуляция на примере интернет-магазина. Требования к производительности системы – одни из самых важных НФТ (нефункциональных требований), которые необходимо определить в техническом задании (ТЗ), т.к. они в большей степени влияют на выбор архитектурных решений. Если система не справится с нагрузкой, пострадает бизнес, а, значит, цель автоматизации не будет достигнута. Часто в ТЗ требования к...
2 недели назад
Несогласованность в хранилищах и озерах данных: найти и обезвредить
Почему в одной организации возникает рассогласование данных, чем опасна такая рассинхронизация, как ее обнаружить и устранить: подходы и решения для повышения качества данных. Рассогласование в данных возникает при разной логике обработки одной и той же информации. Это мешает принимать объективные решения, основанные на данных. Например, один отдел агрегирует продажи на уровне региона, а другой — на уровне всей страны. При попытке объединить эти данные для общей картины продаж компания сталкивается с противоречивыми показателями, что мешает точной оценке эффективности бизнеса...
3 недели назад
Вместо тысячи JOIN’ов: изменение структуры данных для приема изменений из PostgreSQL в ClickHouse
Денормализация таблиц, оптимизация SQL-запросов, словари вместо измерений и AggregatingMergeTree-движок с инкрементными матпредставлениями для приема измененных данных из PostgreSQL в ClickHouse. Хотя передача изменений из PostgreSQL в ClickHouse может сопровождаться дублированием или потерями данных, эти проблемы решаемы, о чем мы рассказывали здесь и здесь. Однако, репликация данных из реляционной базы с сильной степенью нормализации в колоночное денормализованное хранилище предполагает изменение структуры данных...
3 недели назад
Долгожданный релиз Apache Kafka 4.0: главные новости
Полный отказ от ZooKeeper, изменение протокола перебалансировки потребителей, защита транзакций на стороне сервера, ELR-реплики и другие важные новинки Apache Kafka 4.0. Несколько дней назад, 18 марта 2025 года вышел мажорный релиз Apache Kafka 4.0 – первый крупный выпуск, работающий полностью без Apache ZooKeeper. Работая в режиме KRaft по умолчанию, Kafka упрощает развертывание и управление, устраняя сложность поддержки внешнего компонента. Это изменение значительно снижает эксплуатационные расходы, повышает масштабируемость и оптимизирует административные задачи...
3 недели назад
Удаление топика Kafka: неочевидные проблемы и как их решить
Почему нельзя просто взять и удалить топик Apache Kafka: что проверить и перенастроить, с помощью каких инструментов и чем можно обойтись вместо непосредственного удаления. Когда у вас есть собственный инстанс или даже кластер Apache Kafka с полными правами на все манипуляции с топиками, вопрос о трудностях их создания или удаления даже не стоит. Однако, в корпоративной среде, когда Kafka используется в качестве платформенного решения межсервисной интеграции, такие операции администрирования находятся в области ответственности платформенных инженеров...
3 недели назад
10:49
1,0×
00:00/10:49
9 месяцев назад