Добавить в корзинуПозвонить
Найти в Дзене

Титаник. Исследование и визуализация данных с python.

Графическая интерпретация данных - мощнейший инструмент, но SQL для аналитики куда важнее. И то и другое нужно освоить - это не пустое - это важно. Источник Павел Жуков
https://habr.com/ru/articles/726454/
https://github.com/pas-zhukov/Titanic-Survivors-Data-Research
https://github.com/pas-zhukov/Titanic-Survivors-Data-Research/blob/master/Paper.md
Адаптировано А.Немченко, an2k.ru
Работать в терминале Debian и обязательно использовать виртуальную среду Python.
Подробно в ролике: Виртуальная среда Python. Создание и активация.
Краткая шпаргалка по виртуальной среде здесь: HELP Полный ролик по исследованию и визуализации данных с использованием языка python: http://an2k.ru/data/level2/202-titanic/202-titanic.mp4 Получить архив с данными и скриптами Python
wget http://an2k.ru/data/level2/202-titanic/titanic.tar.gz Распаковать архив (образуется папка titanic)
tar xzf titanic.tar.gz Перейти в папку titanic
cd titanic Посмотреть содержимое папки (вывод в одну колонку)
ls -1 (1 - это ц
Оглавление
Титаник на малом ходу. На море мелкая зыбь.
Титаник на малом ходу. На море мелкая зыбь.

Графическая интерпретация данных - мощнейший инструмент, но SQL для аналитики куда важнее. И то и другое нужно освоить - это не пустое - это важно.

Источник Павел Жуков
https://habr.com/ru/articles/726454/
https://github.com/pas-zhukov/Titanic-Survivors-Data-Research
https://github.com/pas-zhukov/Titanic-Survivors-Data-Research/blob/master/Paper.md

Адаптировано А.Немченко, an2k.ru


Работать в терминале Debian и обязательно использовать виртуальную среду Python.
Подробно в ролике:
Виртуальная среда Python. Создание и активация.
Краткая шпаргалка по виртуальной среде здесь:
HELP

Полный ролик по исследованию и визуализации данных с использованием языка python: http://an2k.ru/data/level2/202-titanic/202-titanic.mp4

Архив

Получить архив с данными и скриптами Python
wget http://an2k.ru/data/level2/202-titanic/titanic.tar.gz

Распаковать архив (образуется папка titanic)
tar xzf titanic.tar.gz

Перейти в папку titanic
cd titanic

Посмотреть содержимое папки (вывод в одну колонку)
ls -1 (1 - это цифла один)

Данные

tit0.csv

Колонки в таблице
id — идентификатор, который был присвоен в базе
pclass — класс купленного билета (1-й, 2-й, или 3-й)
survived — выжил 1 или нет 0 пассажир
name — имя пассажира
sex — пол пассажира
age — возраст пассажира
sibsp — количество братьев или супругов у пассажира на борту
parch — количество родителей или детей у пассажира на борту
ticket — номер билета
fare — сумма денег, которую заплатили за билет
cabin — номер каюты, в которой находился пассажир
embarked — порт (город), где пассажир сел на титаник
boat — номер лодки куда попал выживший
body — номер лодки куда было поднято тело погибшего
home — домашний адрес

Скрипты

tit01_null.py
tit02_sex.py
tit03_class.py
tit04_age.py
tit05_family.py
tit06_port.py

Просмотреть код скрипта в терминале
cat tit01_null.py | less
... или в редакторе
mcedit tit01_null.py

Последовательно выполнить все скрипты (обязательно в своей виртуальной среде!)
Открывающиеся при этом окна диаграмм, после просмотра закрывать.
python tit01_null.py
python tit02_sex.py
python tit03_class.py
python tit04_age.py
python tit05_family.py
python tit06_port.py


При возникновении ошибки отсутствия модуля - установить его
pip install имя_модуля

Диаграммы

Вывести список созданных при выполнении скриптов диаграмм
ls -1 tit*.png

tit01_null.png
tit02_sex.png
tit03_class.png
tit04_age.png
tit05_baby.png
tit05_family.png
tit05_heatmap.png
tit06_fare.png
tit06_port.png

Просмотр png-файлов
eom tit01_null.png

Диаграмма полноты данных. Белые полосы - отсутсвие данных.
Диаграмма полноты данных. Белые полосы - отсутсвие данных.
-3
-4
-5
-6
-7
-8
-9
-10