Рассмотрим, как быстро собрать минимум информации о spark датафрейме, чтобы получить первичное представление о его содержимом. Загрузим датафрейм по ссылке:
Итак, методом show мы вывели первые n строк.
Количество строк можно посчитать методом count:
Для вывода названий колонок обратитесь к свойству columns:
Колонки с их типами можно получить через атрибут dtypes:
Аналогичная информация может выведена методом printSchema:
К схеме можно обратиться напрямую (подробнее о схеме читайте здесь):
Для подсчета описательных статистик для числовых и строковых колонок воспользуйтесь методом summary: