Найти в Дзене
Нейрон

Прорабатываем навык группировки и визуализации данных в Python

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.
По традиции, в начале, определим цели:
Меньше слов, больше кода!
И, поехали. Сгруппируем данные по полу и году и визуализируем общую динамику рождаемости обоих полов Найдем самые популярные имена за всю историю Разобьём весь временной промежуток в данных на 10 частей и для каждой найдем самое популярное имя каждого пола. Для каждого найденного имени визуализируем его динамику за все время Для каждого года рассчитаем сколько имен покрывает 50% людей и визуализируем эти данные Выберем 4 года из всего промежутка и отобразим для каждого года распределение по первой букве в имени и по последней букве в имени Составим список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценим их влияние на динамику имен Для тренировки можете из последнего примера добавить в

Привет, Дзен!

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

По традиции, в начале, определим цели:

  • Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
  • Найти самые популярные имена за всю историю;
  • Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
  • Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
  • Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
  • Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

Меньше слов, больше кода!

И, поехали.

Сгруппируем данные по полу и году и визуализируем общую динамику рождаемости обоих полов

-2
-3

Найдем самые популярные имена за всю историю

-4

Разобьём весь временной промежуток в данных на 10 частей и для каждой найдем самое популярное имя каждого пола. Для каждого найденного имени визуализируем его динамику за все время

-5
-6
-7
-8
-9
-10
-11
-12
-13
-14
-15

Для каждого года рассчитаем сколько имен покрывает 50% людей и визуализируем эти данные

-16
-17

Выберем 4 года из всего промежутка и отобразим для каждого года распределение по первой букве в имени и по последней букве в имени

-18
-19
-20

Составим список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценим их влияние на динамику имен

-21
-22
-23
-24
-25

Для тренировки можете из последнего примера добавить в визуализацию период жизни знаменитости, чтобы для наглядности оценить их влияние на динамику имен.

На этом все наши цели были достигнуты и выполнены. Мы проработали навык использования средств группирования и визуализации данных в Python, и будем работать с данными дальше. Выводы по уже готовым, визуализированным данным каждый сможет сделать сам.

Больше подобных статей читайте здесь.

Оригинал на Хабре здесь.

Всем знаний!

#python