Найти тему
858 подписчиков

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов. https://newtechaudit.ru/svernut-gory-particzij-s-pyspark/

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто?
Около минуты