Найти тему
Властелин машин

Ключевые способы получения описательной информации о спарк датафрейме

Рассмотрим, как быстро собрать минимум информации о spark датафрейме, чтобы получить первичное представление о его содержимом. Загрузим датафрейм по ссылке:

Итак, методом show мы вывели первые n строк.

Количество строк можно посчитать методом count:

-2

Для вывода названий колонок обратитесь к свойству columns:

-3

Колонки с их типами можно получить через атрибут dtypes:

-4

Аналогичная информация может выведена методом printSchema:

-5

К схеме можно обратиться напрямую (подробнее о схеме читайте здесь):

-6

Для подсчета описательных статистик для числовых и строковых колонок воспользуйтесь методом summary:

-7

-8