Apache Hive в Python: SQL-интерфейс для анализа больших данных
Apache Hive — это система управления данными, построенная поверх Hadoop, которая позволяет работать с большими наборами данных через SQL-подобный язык запросов (HiveQL). Hive упрощает анализ данных, хранящихся в HDFS, для пользователей, знакомых с реляционными базами. Хотя Hive написан на Java, его можно интегрировать с Python через специализированные библиотеки. В этой статье мы разберем, как использовать Hive в Python для выполнения сложных запросов и обработки данных. 1. HiveQL: SQL-подобный синтаксис для запросов...
CCA Data Analyst (CCA159) – Разбор задач
В статье разобраны стандартные задачи, которые дают на сертификации Cloudera Data Analyst. Статья была подготовлена на основе экзамена 2020-ого года. Условия всех задач были переведены мной на русский язык. На экзамене всё на английском. Общие рекомендации 1. На экзамене у вас будет доступ к документации. Заранее изучите, чтобы уметь ориентироваться в разделах. 2. Все таблицы стоит создавать и наполнять данными в два этапа. Сначала создавать DDL таблицы (CREATE TABLE ...), затем загружать в таблицу данные (INSERT INTO ...