Найти в Дзене
Зачем нужна оптимизация PREWHERE в ClickHouse
Как ускорить выполнение SQL-запроса в ClickHouse, сократив объем сканируемых данных с помощью оператора PREWHERE: практический пример простой, но эффективной оптимизации. ClickHouse имеет ряд многоуровневых оптимизаций, благодаря которым позволяет анализировать огромные объемы данных почти в реальном времени. Одной из таких оптимизаций является PREWHERE, которая сокращает объем сканируемых данных и повышает скорость выполнения запроса. Эта оптимизация входит в ClickHouse с самого первого выпуска и считается уникальной, по крайней мере, по названию...
1 месяц назад
Выбор колоночной OLAP-СУБД: ClickHouse или StarRocks
Что общего у ClickHouse и StarRocks, чем они отличаются, и что выбирать для аналитики больших данных в реальном времени: сравнение колоночных OLAP-СУБД с векторным движком. Хотя ClickHouse сегодня считается одной из наиболее популярных СУБД для аналитики больших данных в реальном времени с помощью SQL-запросов. Однако, это далеко не единственное решение в своем классе. Альтернативой может стать колоночная аналитическая СУБД StarRocks, о которой мы недавно рассказывали здесь. Обе системы  написаны на С++, что дополнительно повышает их производительность...
1 месяц назад
StarRocks vs Trino: что и когда выбирать
Что общего у StarRocks с Trino, чем они отличаются, когда и что выбирать для практического использования: сравниваем движки для быстрой аналитики больших данных из Data Lake. Вчера мы разбирали, что такое StarRocks, как устроена и где пригодится эта высокопроизводительная аналитическая база данных с открытым исходным кодом. Однако, помимо хранения данных, StarRocks может использоваться как вычислительный движок для аналитических запросов к внешним системам без фактического импорта данных. Это похоже...
1 месяц назад
Не только Clickhouse: StarRocks для аналитики больших данных в реальном времени
Вместо Trino и ClickHouse: что такое StarRocks и как оно устроено, архитектура и принципы работы, сценарии использования и место в корпоративной архитектуре данных. Хотя ClickHouse сегодня считается одним из наиболее популярных колоночных хранилищ для аналитики больших объемов данных в реальном времени, это не единственный представитель подобных систем. В качестве альтернативы можно рассмотреть StarRocks — высокопроизводительную аналитическую базу данных с открытым исходным кодом. StarRocks поддерживает прием данных в реальном времени и пакетный импорт из данных различных источников...
1 месяц назад
Управление метаданными в корпоративной платформе данных
Зачем нужен каталог метаданных и как он работает: построение платформы данных и управление метаданными по DAMA DMBOK. Unity Catalog и другие решения для учета источников данных и непрерывного обеспечения их актуальности. Методологически создание и внедрение платформ данных основано на положениях DAMA DMBOK – своде знаний по управлению данными, который определяет области знаний по управлению данными, а также подходы, лучшие практики и инструменты их реализации. Одной из областей знаний в модели DAMA...
1 месяц назад
Не только векторные БД: графовый RAG для LLM и агентского ИИ
Что не так с векторным RAG: обогащение LLM данными из графовых баз с помощью MCP-протокола, вычислительных движков и коннекторов для построения ML-системы агентского ИИ. Большие языковые модели (LLM, Large Language Model) и основанные на них системы агентского ИИ активно используют векторные базы данных, которые специально оптимизированы для хранения векторных встраиваний и запросов к ним. В частности, большинство RAG-инструментов (Retrieval Augmented Generation), использующих поиск информации на...
1 месяц назад
Проблемы ручной фиксации смещения потребителей в Kafka и их решения с KIP-1094
Когда и зачем фиксировать смещение потребителей Kafka вручную, с какими проблемами можно при этом столкнуться и как улучшение KIP-1094 обеспечивает целостность потоков данных в распределенных средах. Недавно мы разбирали, как выполняется автоматическая фиксация смещений потребителей в Apache Kafka. Она выполняется периодически. Это подходит для большинства случаев, но иногда возникает необходимость в ручной фиксации смещений, например, в следующих случай: Таким образом, ручная фиксация смещения в...
1 месяц назад
Где сохраняются и как фиксируются смещения потребителей Apache Kafka
Как Apache Kafka обеспечивает упорядоченность сообщений в рамках раздела, где хранятся смещения потребителей и зачем их фиксировать вместе со эпохой брокера-лидера. Асинхронная интеграция между информационными системами через Apache Kafka основана на смещениях потребителей – позиции сообщения в разделе топика. Раздел является единицей параллелизма и представляет собой каталог файлов журналов. Раздел должен полностью помещаться на одной машине. Поэтому дл масштабирования скорости записи и потребления данных необходимо несколько разделов...
1 месяц назад
Водяные знаки в заданиях Flink для потоковой обработки данных из Kafka
Почему задание Flink не обрабатывает потоковые данные из топика Kafka и при чем здесь водяные знаки: причины потери данных или растущей задержки вычислений и способы их решения. Рассмотрим простой потоковый конвейер на Apache Flink и Kafka: задание Flink потребляет записи из топика Kafka, выполняет их агрегацию по времени и публикует результат в другой топик. После запуска задания данные в результирующем топике отсутствуют, хотя в исходном топике они есть. Такая ситуация часто возникает из-за проблем с водяными знаками (watermark)...
2 месяца назад
Apache AirFlow 3.0: главные новости
22 апреля 2025 вышел долгожданный крупный релиз Apache Airflow. Знакомимся с главными новинками версии 3.0: изменения архитектуры и пользовательского интерфейса для повышения устойчивости и безопасности фреймворка. Недавно мы писали про бета-релиз Apache AirFlow 3.0. Теперь мажорная версия вышла официально и доступна для использования. Ее главными новинками считаются следующие: Раньше в Airflow выполнялась только последняя версия DAG, что приводило к следующим ограничениям: Для решения таких проблем в Airflow 3 были введены пакеты DAG и управление версиями DAG...
2 месяца назад
От LLM до ИИ-агентов: эволюция чат-ботов и шаблоны рабочих процессов
Как развивались системы агентского ИИ, из каких компонентов они состоят, каковы их типовые архитектуры и чем отличаются друг от друга топологии построения рабочих процессов LLM. Развитие и практическое внедрение больших языковых моделей (LLM, Large Language Model) привело к появлению систем агентского ИИ, где LLM динамически управляют собственными процессами и использованием инструментов, сохраняя контроль над выполнением задач. Агенты ИИ используют инструменты (tools) для выполнения задач (tasks)...
2 месяца назад
Проект Antalya от Altinity: масштабируемый и недорогой LakeHouse на ClickHouse с Iceberg
Как сократить затраты на хранение исторических данных в ClickHouse для ИИ-сценариев, сохранив высокую скорость аналитики по широким таблицам и озеру данных: эволюция колоночной СУБД в новом проекте с исходным кодом Antalya от Altinity. Благодаря колоночной структуре хранения данных ClickHouse не только обеспечивает быструю аналитику огромных объемов в реальном времени, но и неплохо подходит для задач машинного обучения. Об этом мы писали здесь и здесь. Эти варианты использования приводят к стремительному...
2 месяца назад