sfd
Apache Spark: гайд для новичков
Что такое Apache Spark?
Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle Intro to Apache Spark (очень рекомендую прочитать)
Apache Hive в Python: SQL-интерфейс для анализа больших данных
Apache Hive — это система управления данными, построенная поверх Hadoop, которая позволяет работать с большими наборами данных через SQL-подобный язык запросов (HiveQL). Hive упрощает анализ данных, хранящихся в HDFS, для пользователей, знакомых с реляционными базами. Хотя Hive написан на Java, его можно интегрировать с Python через специализированные библиотеки. В этой статье мы разберем, как использовать Hive в Python для выполнения сложных запросов и обработки данных. 1. HiveQL: SQL-подобный синтаксис для запросов...