Apache Spark — это технология кластерных вычислений, основанная на Hadoop MapReduce и расширяющая его модель, позволяя использовать интерактивные запросы и потоковую обработку. Главной особенностью Spark являются его кластерные вычисления в памяти, которые увеличивают скорость обработки приложения.
Spark предназначен для покрытия широкого спектра нагрузок, таких как пакетные приложения, итерационные алгоритмы, интерактивные запросы и потоковая передача. Помимо поддержки всех этих рабочих нагрузок в соответствующей системе, это снижает нагрузку на управление, связанную с обслуживанием отдельных инструментов.
Spark — это один из подпроектов Hadoop, разработанный Матеем Захария в 2009 году в AMPLab Калифорнийского университета в Беркли. Он был открыт в 2010 году под лицензией BSD.
Apache Spark имеет следующие функции.
- Скорость: Spark помогает запускать приложение в кластере Hadoop, до 100 раз быстрее в памяти и в 10 раз быстрее при работе на диске. Это возможно за счет уменьшения количества операций чтения / записи на диск. Он хранит данные промежуточной обработки в памяти.
- Поддержка нескольких языков — Spark предоставляет встроенные API-интерфейсы на Java, Scala или Python. Поэтому вы можете писать приложения на разных языках. Spark предлагает 80 высокоуровневых операторов для интерактивных запросов.
- Расширенная аналитика, поддержка SQL-запросов, потоковых данных, Машинного обучения (ML) и графических алгоритмов.
Автор оригинальной статьи: tutorialspoint.com