06:44
1,0×
00:00/06:44
20,7K просмотров · 3 года назад
Около минуты
68 прочтений · 1 год назад
Создание схемы данных в Spark
Для оптимизации работы с датафреймом Spark заранее позаботьтесь о задании схемы данных. Это уменьшит время загрузки, сэкономит память и позволит избежать неожиданностей при автоматическом определении типов. Для примера будем работать с датасетом о пассажирах Титаника. При загрузке данных из источников, не хранящих информацию о типах, по умолчанию колонкам будет присвоен строчный тип: Если хотите установить автоматическое определение типов, воспользуйтесь параметром inferSchema: Типы можно посмотреть...
Около минуты
22 прочтения · 2 года назад
Учимся обходить подводные камни Spark
Таблицы — фундаментальная часть заданий Spark. На первый взгляд может показаться, что работать с ними нетрудно, но в реальности это сложнее, чем кажется. Перевели статью о том, с какими трудностями вы можете столкнуться в процессе и как их преодолеть...