1160 читали · 1 год назад
PySpark для начинающих: полное руководство с примерами и заданиями
PySpark – это фреймворк для обработки больших объемов данных с использованием языка Python. Он основан на Apache Spark, который является одной из наиболее широко используемых платформ для работы с данными в масштабе веба. Начать работу с PySpark может быть сложно для начинающих, но в этом руководстве мы поможем вам освоить этот инструмент, рассказав об основных концепциях и функциональности PySpark. В этом руководстве вы получите все необходимые знания, чтобы начать работать с PySpark, начиная от установки и начального уровня до продвинутой обработки данных и машинного обучения...
580 читали · 4 года назад
От Pandas к Pyspark
Источник: Nuances of Programming Изучение программирования с помощью Pandas  —  это как начало работы с программой Hello World в мире науки о данных. Pandas  —  широко используемая, интуитивно понятная и простая в освоении библиотека Python. Она работает с датафреймами, в которых данные представлены в табличном формате со строками и столбцами (как электронные таблицы). Pandas загружает все данные в память машины (Single Node) для более быстрого выполнения. Почему стоит попробовать Pyspark? Хотя Pandas...
2 года назад
Динамическая загрузка модулей в Python и как она спасает при работе с pyspark
"Приобретение знаний - это как путешествие в неизведанные земли: чем больше вы исследуете, тем больше открытий вы делаете". Библиотека importlib в Python предоставляет инструменты для динамической загрузки модулей. То есть она будет происходить не на этапе анализа кода интерпретатором, а во время выполнения программы. Это полезно, когда некоторые модули не известны до старта программы, например, как при работе с pyspark до инициализации переменных окружения с нужными путями. Импорт модуля Самый простой способ динамически загрузить модуль - использовать функцию import_module...
203 читали · 1 год назад
PySpark vs Pandas | Наглядная разница
Всем привет! И в сегодняшнем посте мы рассмотрим 2 популярных инструмента для обработки данных PySpark и Pandas на примере сгенерированных данных в локальном режиме. Очень часто слышу от людей, которые только-только пришли в область дата инженерии или ходят вокруг нее, что PySpark - это продвинутый Pandas. Отчасти, это так, но не совсем. Давайте разбираться. Начнем с истории PySpark. Продолжим историей Pandas. То есть pandas вышел раньше и это его первый плюс. Как следствие - большая популярность...