В работе с Big Data используется много разных инструментов. Даже для одних и тех же задач существует несколько технологий, у каждой из которых свои особенности и недостатки. Может быть сложно разобраться во всем этом многообразии и что-то выбрать. Чтобы помочь в этом, мы расскажем об одном из инструментов — Apache Spark. Вы узнаете, что это такое, как он используется при работе с большими данными и чем он может помочь. Также мы сравним его с другой похожей технологией — Hadoop MapReduce. Что такое...
Что общего у клиент-серверной архитектуры Spark Connect с JDBC-драйвером подключения к БД, как взаимодействуют клиент и сервер по gRPC, как подключиться к серверу и указать обязательность поля в схеме proto-сообщения. О том, что представляет собой Spark Connect и зачем нужен этот клиентский API, позволяющий удаленно подключаться к кластерам Spark с использованием API DataFrame и неразрешенных логических планов в качестве протокола, мы уже писали здесь и здесь. Сегодня разберем более подробно реализацию этой разделенной клиент-серверной архитектуры...