228 читали · 2 года назад
Конвейер данных в реальном времени с Kafka и ClickHouse
Источник: Nuances of Programming Курс SkillFactory Python для анализа данных. Вы научитесь за минуты обрабатывать большие файлы и создавать отчеты, автоматизируете сбор данных из интернета, освоите парсинг и работу с API. Построим конвейер данных с их приемом в ClickHouse через Kafka и агрегированием автоматически обновляемых данных. Возьмем набор данных о мировых ценах на продовольствие, хоть и неидеальный для Kafka из-за отсутствия критериев скорости. Сначала создадим на Python скрипт для выдачи сообщений  —  строк набора данных...
402 читали · 2 года назад
Подключение к ClickHouse из python ClickHouse - столбцовая система управления базами данных (СУБД) для онлайн обработки аналитических запросов (OLAP). Мы можем легко подключиться к данной базе при помощи Python, используя библиотеку clickhouse_driver Вначале требуется установить библиотеку, выполнив команду pip install clickhouse-driver Затем инициализируем клиента, указав ip, логин и пароль В примере мы загружаем датафрейм df в табличку test_db.test_table Также можно выполнить любой требуемый запрос в ClickHouse, используя метод execute у клиента Полное описание доступных функций можно найти на официальной странице библиотеки https://pypi.org/project/clickhouse-driver/ #dataengineering