Как выбрать стратегию соединения в PySpark: лучшие практики
Выбор стратегии соединения в PySpark определяется размером наборов данных и их распределением: Broadcast Join подходит для небольших таблиц, Shuffle Join — для одинаково больших, а Skew Join решает проблему сильно несбалансированных данных. Правильный выбор может сократить время выполнения запросов до 30 % и сэкономить до 150 000 ₽ в облачных ресурсах. Broadcast Join передаёт небольшую таблицу на каждый исполнитель, что позволяет избежать дорогостоящего shuffle‑оператора. Это ускоряет процесс в среднем на 40 % при размере «малой» таблицы до 100 МБ...
1145 читали · 1 год назад
PySpark для начинающих: полное руководство с примерами и заданиями
PySpark – это фреймворк для обработки больших объемов данных с использованием языка Python. Он основан на Apache Spark, который является одной из наиболее широко используемых платформ для работы с данными в масштабе веба. Начать работу с PySpark может быть сложно для начинающих, но в этом руководстве мы поможем вам освоить этот инструмент, рассказав об основных концепциях и функциональности PySpark. В этом руководстве вы получите все необходимые знания, чтобы начать работать с PySpark, начиная от установки и начального уровня до продвинутой обработки данных и машинного обучения...
143 читали · 3 года назад
SQL JOIN - как правильно соединять таблицы в SQL.
Очень часто в SQL нам надо взять данные из нескольких таблиц и объединить их в одной таблице. Для этого в SQL существуют специальные команды JOIN's - в простонародье "джоины". Но соединить две таблицы между собой мы можем ни одним способом, а целыми пятью. Виды соединений таблиц (join): ! Важное условие - чтобы соединить две таблицы между собой у них у обоих должно быть поле, по значениям которого они будут соединяться. Чаще всего это поле ID какого-нибудь объекта. Например, можно соединить таблицу продаж, со справочником клиентов по полю client_id, которое есть в обоих таблицах...