9 месяцев назад
Лучшие курсы по Apache Spark + бесплатное онлайн-обучение с нуля
В январе 2021 года команда Apache Spark объявила о новом достижении: система обработки данных на базе Spark смогла сортировать 100 терабайт данных всего за 23 минуты на кластере из 207 машин. Это был удивительный прорыв в области обработки больших данных и подтверждение того, что Apache Spark является одной из самых мощных и эффективных систем анализа данных, способной справляться с огромными объемами информации во время выполнения сложных вычислений. Команда Kursfinder изучила более 40 программ обучения и составила список из 10 лучших курсов по Apache Spark...
6 лет назад
Машинное обучение в Spark: классификация, кластеризация и ALS
На этих занятиях мы научились работать с библиотекой pyspark.ml, которую можно назвать аналогом sklearn, но для работы в Spark. Преимущество этой библиотеки - она позволяет обучать модели распределенно, однако хорошо себя показывает только на больших объемах данных. Обучение и создание моделей примерно такое же как в sklearn: импортируем нужную модель, берем данные и обучаем на них. Также есть инструменты для токенизации, работы с текстом и проверки качества модели. Ну и классификация с кластеризацией такие же как в sklearn...