Найти в Дзене
Что такое ClickHouse: Полный гид по колоночной СУБД для сверхбыстрой аналитики. Урок 1.
Если ваша работа связана с данными, вы наверняка слышали название ClickHouse. Это не просто очередная база данных, а мощный инструмент, который стремительно меняет подходы к аналитике в IT-компаниях по всему миру. В этой статье мы подробно разберемся, что же такое ClickHouse, почему он феноменально быстр в аналитических задачах и, самое главное, как вы можете начать с ним работать уже сегодня — как локально на своем компьютере, так и в облаке. Миссия: обрабатывать огромные объемы данных с максимальной...
5 месяцев назад
Gemini
Gemini – это семейство передовых мультимодальных моделей искусственного интеллекта (ИИ), разработанное Google DeepMind. Gemini создана с нуля для мультимодальности, что означает способность понимать, обрабатывать и комбинировать различные типы информации, такие как текст, код, изображения, аудио и видео. Модели Gemini предлагаются в различных размерах (Ultra, Pro, Nano) для эффективного применения в широком спектре задач, от сложных рассуждений до работы на мобильных устройствах. Основные функциональные...
5 месяцев назад
ClickHouse Certified Developer
ClickHouse Certified Developer — это официальная сертификация от разработчиков СУБД ClickHouse, подтверждающая практические навыки и знания специалистов в области работы с ClickHouse. Сертификат выдаётся после прохождения онлайн-экзамена, который включает реальные задания в среде clickhouse-client. Это единственная вендорская сертификация по ClickHouse, признанная в международном сообществе. Что такое ClickHouse Certified Developer сертификация и для кого она предназначена? Сертификация ClickHouse...
5 месяцев назад
Apache SuperSet
Apache Superset — это современная платформа для исследования и визуализации данных. Изначально ее создали в компании Airbnb. Впоследствии, проект стал частью Apache Software Foundation. По сути, Superset помогает создавать интерактивные дашборды. Он также предоставляет мощные инструменты для анализа данных. Основные функциональные возможности Apache SuperSet Кстати, Superset предлагает пользователям множество полезных функций. Интуитивный конструктор дашбордов. Он позволяет создавать дашборды без написания кода...
5 месяцев назад
Druid
Druid – это высокопроизводительная, распределенная база данных для аналитики в реальном времени (real-time analytics database). Она создана для быстрых OLAP-запросов (Online Analytical Processing) по большим наборам данных. Druid идеально подходит для сценариев, где требуется мгновенная обработка и визуализация потоковых или исторических данных, таких как бизнес-аналитика, мониторинг сетевых событий, анализ пользовательского поведения и IoT-аналитика. Основные функциональные возможности Ключевые...
5 месяцев назад
MergeTree
MergeTree – это семейство движков таблиц в ClickHouse, разработанное для хранения данных, отсортированных по первичному ключу. Эти движки обеспечивают высокую производительность для широкого спектра аналитических запросов, поддерживая быструю вставку данных и их последующую фоновую обработку (слияние кусков данных). Семейство MergeTree engine является основой для большинства высоконагруженных задач в ClickHouse. Основные функциональные возможности Движки семейства MergeTree Engine предоставляют...
5 месяцев назад
Пользовательское распределение данных для входного потока Lookup Join в Apache Flink 2.0
Как Flink SQL позволяет обогащать потоковые данные информацией из внешних систем и статических таблиц, зачем в релизе 2.0  улучшили Lookup Join и каким образом работает эта оптимизация. Как работает потоковое обогащение в Apache Flink Для взаимодействия с внешними системами (источниками и приемниками данных) Apache Flink использует коннекторы. Source-коннекторы обеспечивают чтение данных из источников, а sink-коннекторы позволяют записывать результаты во внешние базы и другие хранилища данных. Одним...
5 месяцев назад
Не только Python: Go SDK в Apache AirFlow 3.0
Зачем в Apache AirFlow 3.0 добавлена поддержка Go и как работает этот экспериментальный  SDK: возможности и ограничения разработки и запуска задач на компилируемом языке программирования. Одной из ключевых новинок недавно выпущенного Apache AirFlow 3.0, о котором мы писали здесь, стала его мультиязычность. Теперь фреймворк поддерживает не только Python, но и Typescript, а также Java, Scala и Go. Разумеется, основным языком разработки в ETL-оркестраторе остается Python, однако теперь Airflow позволяет пользователям определять задачи DAG и на других языках...
5 месяцев назад
Настройка многопоточной обработки и планирование нагрузки ЦП в ClickHouse
Как оптимизировать многопоточную обработку в ClickHouse и эффективно распределить ресурсы ЦП между разными пользователями и запросами, спланировав рабочую нагрузку. Чтобы эффективно утилизировать ресурсы для аналитической обработки огромных объемов данных, в ClickHouse можно спланировать рабочую нагрузку, определив приоритеты использования памяти, диска и ЦП для разных видов запросов. Поскольку ClickHouse изначально спроектирован для многопоточной обработки на всех ядрах ЦП, в СУБД есть возможности настроить параметры потоков...
5 месяцев назад
Многопоточность в ClickHouse
Как ClickHouse распараллеливает обработку данных для максимального использования всех ядер ЦП: особенности многопоточных вычислений в колоночной СУБД. Современные центральные процессоры (ЦП) содержат несколько ядер и могут работать с несколькими задачами одновременно. Это называется многопоточной обработкой, где каждый поток, последовательность выполняемых инструкций, представляется как отдельная задача. На уровне операционной системы (ОС) многопоточный ЦП выглядит как несколько логических, количество которых обычно равно количеству ядер...
5 месяцев назад
Apache Wayang vs Beam: сравнение фреймворков
Чем похожи Apache Beam и Apache Wayang, чем они отличаются, что и когда выбирать для практического использования в аналитике и обработке больших данных: сравнительная таблица по 10 критериям. Недавно я писала про сходство и различие Apache Wayang и Trino, где упоминала, что Wayang скорее похож на Apache Beam – унифицированную модель определения пакетных и потоковых конвейеров параллельной обработки данных, которую можно запустить в любой среде исполнения (Flink, Spark, AirFlow и пр.), используя соответствующий движок (Runner)...
5 месяцев назад
Планирование рабочей нагрузки в ClickHouse
Как эффективно распределять ресурсы ClickHouse между разными пользователями и запросами, настроив политику планирования рабочих нагрузок: примеры и рекомендации. Когда ClickHouse выполняет несколько запросов одновременно, они могут использовать общие ресурсы, например, диски, ЦП и память. Чтобы эффективно распределять ресурсы ClickHouse между разными пользователями и нагрузками, в этой колоночной СУБД есть специальные механизмы планирования рабочей нагрузки (workload management). К ним относятся...
5 месяцев назад