3 года назад
Что такое Apache Spark и как он используется в Big Data
В работе с Big Data используется много разных инструментов. Даже для одних и тех же задач существует несколько технологий, у каждой из которых свои особенности и недостатки. Может быть сложно разобраться во всем этом многообразии и что-то выбрать. Чтобы помочь в этом, мы расскажем об одном из инструментов — Apache Spark. Вы узнаете, что это такое, как он используется при работе с большими данными и чем он может помочь. Также мы сравним его с другой похожей технологией — Hadoop MapReduce. Что такое...
Основные компоненты Apache Spark
Apache Spark — платформа, используемая в Big Data для крупномасштабной обработки данных и кластерных вычислений. Spark осуществляет обработку данных непосредственно в оперативной памяти, то есть он редко обращается к диску, следовательно, работает весьма быстро. Apache Spark является полностью совместимым с экосистемой Hadoop и может легко встраиваться в существующие решения. У него отсутствует свое хранилище данных, и он способен работать с разными источниками: Hive, HDFS, S3, HBase, Cassandra и пр...