Учебный центр "Коммерсант"

AI SDK для Apache AirFlow: оркестрация LLM-задач

Как LLM упрощают работу дата-инженера: новые декораторы TaskFlow API в Apache Airflow для внедрения больших языковых моделей в DAG. Обзор Airflow AI SDK на основе Pydantic AI с практическим примером про анализ отзывов. Мультимодальность современных инструментов машинного обучения, когда одна ML-модель может принимать на вход данные разного формата и характера (изображения, текст и аудио) позволяет быстрее получить результат прогнозирования или классификации благодаря расширению контекста. Благодаря...

6 дней назад

2 режима асинхронной вставки данных в ClickHouse и адаптивная очистка буфера

Как избежать потери данных при асинхронной вставке в Clickhouse при сбое сервера и зачем в версию 24.2 добавлен адаптивный тайм-аут очистки буфера: тонкости ETL с колоночной СУБД. Недавно мы рассказали, чем хороши асинхронные вставки в ClickHouse и отметили, что при их использовании можно настроить параметр возврата подтверждения wait_for_async_insert. Напомним, в отличие от синхронной вставки, при асинхронной данные сперва вставляются в буфер, а затем записываются в хранилище базы данных позже. Это переносит пакетирование данных со стороны клиента на сторону сервера, т...

6 дней назад

Что такое HTAP: гибридная транзакционно-аналитическая обработка

Можно ли сочетать OLAP и OLTP-нагрузки в едином хранилище и как это сделать: гибридная транзакционно-аналитическая обработка в базах данных, возможности и проблемы этой архитектуры. Исторически хранилища данных принято делить на OLAP и OLTP с учетом их оптимизации для аналитических и транзакционных нагрузок. OLTP-системы (Online Transaction Processing) оптимизированы для обработки большого количества транзакций в режиме реального времени. Они обеспечивают быстрое выполнение операций вставки, обновления и удаления данных, поддерживая целостность и надежность транзакций...

1 неделю назад

Синхронные и асинхронные вставки данных в ClickHouse

Чем синхронная вставка в ClickHouse отличается от асинхронной и как это настроить: лучшие практики и риски загрузки данных в колоночное хранилище. Хотя скорость вставки данных в ClickHouse зависит от множества факторов, ее можно ускорить за счет асинхронных вставок, если предварительное пакетирование на стороне клиента невозможно. Таблицы ClickHouse предназначены для приема миллионов вставок строк в секунду и хранения сотен петабайт данных. Такая высокая пропускная способность приема обычно требует соответствующей пакетной обработки данных на стороне клиента...

1 неделю назад

Публикация очень больших сообщений в Apache Kafka

Почему не рекомендуется публиковать в Kafka сообщения больших размеров, и как это сделать, если очень нужно: когда приходится перенастраивать конфигурации продюсера, топика и потребителя, и какие это параметры. Apache Kafka, как и другие брокеры сообщений, оптимизирована для передачи данных небольшого размера. Обычно это текстовые форматы (JSON, AVRO, protobuf, XML и пр.), а не мультимедиа. Это ограничение обусловлено самим назначением брокера сообщений, который должен обеспечить асинхронную интеграцию приложений в почти реальном времени...

1 неделю назад

Как ускорить вставку данных в ClickHouse с помощью формата, сжатия и интерфейса передачи

Как именно формат, сортировка, сжатие и интерфейс передачи данных в ClickHouse влияют на скорость операций загрузки: бенчмаркинговое сравнение от разработчиков колоночной СУБД. Продолжая недавний разговор про вставку данных в ClickHouse, сегодня рассмотрим, ключевые факторы, которые особенно сильно влияют на скорость загрузки данных в это колоночное хранилище. Бенчмаркинговое исследование, проведенное разработчиками ClickHouse, показывает, что наибольший вклад в скорость загрузки вносят формат данных, алгоритм их сжатия и интерфейс передачи...

1 неделю назад

Что влияет на скорость вставки данных в ClickHouse: главные факторы

Как выполняется вставка данных в ClickHouse, от чего зависит ее скорость и каким образом ее повысить: последовательность операций загрузки и ее оптимизации. Поскольку ClickHouse часто используется для построения хранилищ или витрин данных, скорость загрузки данных в эту базу очень важна. Хотя на время вставки данных в ClickHouse влияют множество факторов, включая настройки ETL/ELT-движков, с точки зрения самого колоночного хранилища можно выделить следующие ключевые категории, определяющих скорость...

2 недели назад

НФТ к производительности: расчет нагрузки в rps на практическом примере

Как рассчитать нагрузку в rps и задать нефункциональные требования к производительности в точных цифрах: калькуляция на примере интернет-магазина. Требования к производительности системы – одни из самых важных НФТ (нефункциональных требований), которые необходимо определить в техническом задании (ТЗ), т.к. они в большей степени влияют на выбор архитектурных решений. Если система не справится с нагрузкой, пострадает бизнес, а, значит, цель автоматизации не будет достигнута. Часто в ТЗ требования к...

2 недели назад

Несогласованность в хранилищах и озерах данных: найти и обезвредить

Почему в одной организации возникает рассогласование данных, чем опасна такая рассинхронизация, как ее обнаружить и устранить: подходы и решения для повышения качества данных. Рассогласование в данных возникает при разной логике обработки одной и той же информации. Это мешает принимать объективные решения, основанные на данных. Например, один отдел агрегирует продажи на уровне региона, а другой — на уровне всей страны. При попытке объединить эти данные для общей картины продаж компания сталкивается с противоречивыми показателями, что мешает точной оценке эффективности бизнеса...

3 недели назад

Вместо тысячи JOIN’ов: изменение структуры данных для приема изменений из PostgreSQL в ClickHouse

Денормализация таблиц, оптимизация SQL-запросов, словари вместо измерений и AggregatingMergeTree-движок с инкрементными матпредставлениями для приема измененных данных из PostgreSQL в ClickHouse. Хотя передача изменений из PostgreSQL в ClickHouse может сопровождаться дублированием или потерями данных, эти проблемы решаемы, о чем мы рассказывали здесь и здесь. Однако, репликация данных из реляционной базы с сильной степенью нормализации в колоночное денормализованное хранилище предполагает изменение структуры данных...

3 недели назад

Долгожданный релиз Apache Kafka 4.0: главные новости

Полный отказ от ZooKeeper, изменение протокола перебалансировки потребителей, защита транзакций на стороне сервера, ELR-реплики и другие важные новинки Apache Kafka 4.0. Несколько дней назад, 18 марта 2025 года вышел мажорный релиз Apache Kafka 4.0 – первый крупный выпуск, работающий полностью без Apache ZooKeeper. Работая в режиме KRaft по умолчанию, Kafka упрощает развертывание и управление, устраняя сложность поддержки внешнего компонента. Это изменение значительно снижает эксплуатационные расходы, повышает масштабируемость и оптимизирует административные задачи...

3 недели назад

Удаление топика Kafka: неочевидные проблемы и как их решить

Почему нельзя просто взять и удалить топик Apache Kafka: что проверить и перенастроить, с помощью каких инструментов и чем можно обойтись вместо непосредственного удаления. Когда у вас есть собственный инстанс или даже кластер Apache Kafka с полными правами на все манипуляции с топиками, вопрос о трудностях их создания или удаления даже не стоит. Однако, в корпоративной среде, когда Kafka используется в качестве платформенного решения межсервисной интеграции, такие операции администрирования находятся в области ответственности платформенных инженеров...

3 недели назад

10:49

1,0×

00:00/10:49

KEDRO

9 месяцев назад