19 подписчиков

Прорабатываем навык группировки и визуализации данных в Python

14 мая 201914 мая 2019

1 мин

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

По традиции, в начале, определим цели:

Меньше слов, больше кода!

И, поехали. Сгруппируем данные по полу и году и визуализируем общую динамику рождаемости обоих полов Найдем самые популярные имена за всю историю Разобьём весь временной промежуток в данных на 10 частей и для каждой найдем самое популярное имя каждого пола. Для каждого найденного имени визуализируем его динамику за все время Для каждого года рассчитаем сколько имен покрывает 50% людей и визуализируем эти данные Выберем 4 года из всего промежутка и отобразим для каждого года распределение по первой букве в имени и по последней букве в имени Составим список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценим их влияние на динамику имен Для тренировки можете из последнего примера добавить в

По традиции, в начале, определим цели:

Меньше слов, больше кода!

Привет, Дзен!

По традиции, в начале, определим цели:

Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
Найти самые популярные имена за всю историю;
Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

Меньше слов, больше кода!

И, поехали.

Сгруппируем данные по полу и году и визуализируем общую динамику рождаемости обоих полов

Найдем самые популярные имена за всю историю

Разобьём весь временной промежуток в данных на 10 частей и для каждой найдем самое популярное имя каждого пола. Для каждого найденного имени визуализируем его динамику за все время

Для каждого года рассчитаем сколько имен покрывает 50% людей и визуализируем эти данные

Выберем 4 года из всего промежутка и отобразим для каждого года распределение по первой букве в имени и по последней букве в имени

Составим список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценим их влияние на динамику имен

Для тренировки можете из последнего примера добавить в визуализацию период жизни знаменитости, чтобы для наглядности оценить их влияние на динамику имен.

На этом все наши цели были достигнуты и выполнены. Мы проработали навык использования средств группирования и визуализации данных в Python, и будем работать с данными дальше. Выводы по уже готовым, визуализированным данным каждый сможет сделать сам.

Больше подобных статей читайте здесь.

Оригинал на Хабре здесь.

Всем знаний!

#python