Найти в Дзене
python-book

Анализ данных популярности языков программирования

Доброго времени суток! В этой статье я буду анализировать датасет, в котором собраны записи об около 87 тысячах голосах программистов за один или несколько языков программирования с которым(-и) они работают. Ссылка на датасет. Начнём. Импортируем необходимые библиотеки Класс Counter из модуля collections будет нужен для подсчёта количества встречающихся языков. Итак, прочитаем csv файл в переменной df: df = pd.read_csv('data.csv') (Файл должен находиться в одном каталоге с программой) Изначально в наборе данных языки программирования перечислены через точку с запятой ( ; ), нам же нужно их разделить и поместить в коллекцию. Поэтому напишем вот такой небольшой код, который позволит позже посчитать количество встречающихся языков во всём наборе данных Выведем первые 10 строк датасета с помощью: print(df.head(10)) Так выглядит первые 10 строк датасета Получение данных. Далее создадим счётчик и помощью цикла посчитаем количество голосов за каждый встречающийся язык программирования Если вы
Оглавление

Доброго времени суток! В этой статье я буду анализировать датасет, в котором собраны записи об около 87 тысячах голосах программистов за один или несколько языков программирования с которым(-и) они работают. Ссылка на датасет.

Начнём.

Импортируем необходимые библиотеки

main.py
main.py

Класс Counter из модуля collections будет нужен для подсчёта количества встречающихся языков.

Итак, прочитаем csv файл в переменной df:

df = pd.read_csv('data.csv')

(Файл должен находиться в одном каталоге с программой)

Изначально в наборе данных языки программирования перечислены через точку с запятой ( ; ), нам же нужно их разделить и поместить в коллекцию.

data.csv
data.csv

Поэтому напишем вот такой небольшой код, который позволит позже посчитать количество встречающихся языков во всём наборе данных

main.py
main.py

Выведем первые 10 строк датасета с помощью:

print(df.head(10))

Так выглядит первые 10 строк датасета

Скриншот консоли print(df.head(10))
Скриншот консоли print(df.head(10))

Получение данных.

Далее создадим счётчик и помощью цикла посчитаем количество голосов за каждый встречающийся язык программирования

main.py
main.py

Если вывести количество элементов в переменной c, то мы получим 28 языков, но я возьму только первые 19 по популярности.

После этого я создал переменные x и y, и внёс туда данные для построения столбчатой диаграммы.

main.py
main.py

В i[0] я перебираю циклом названия языков из коллекции most_common, а в i[1] беру значение количества для каждого языка.

Вывод диаграммы.

И наконец перейдем к самому интересному - к результату наших манипуляций с данными, построим столбчатую диаграмму.

main.py
main.py

Так выглядит код для вывода диаграммы.

Столбчатая диаграмма
Столбчатая диаграмма

А так выглядит сама диаграмма.

Из неё видно, что за JavaScript проголосовало почти 60 тысяч респондентов, а Python проголосовало около 36 тысяч человек.

Такой получился анализ данных.

Спасибо за прочтение статьи, можете подписаться на канал и поставить лайк этой статье, не болейте!