Найти тему
Data Science и всё такое

Визуализация данных - совсем-совсем вступление

Оглавление

@just_data_science November 17, 2017

Возможно, Том Сойер хотел стать Data Storyteller'ом. Кто это такой - узнаете, дочитав до конца
Возможно, Том Сойер хотел стать Data Storyteller'ом. Кто это такой - узнаете, дочитав до конца

Что такое данные? Обычно это куча цифр. Иногда и букв, слов, но чаще всего все-таки цифры. Как чаще всего отображают данные? В таблицах, например через Excel. Смотрим на свою таблицу, допустим, продаж из 3 колнок "Доходы", "Расходы", "Прибыль" и 12 строк - данные о продажах за год. И вроде бы все и понятно: вот прибыль, вот расходы-доходы. 

Но на самом деле, мозг усваивает только часть такой информации. Смотришь на таблицу, и напрягаешься, чтобы понять - растут доходы или падают?

А если вместо скучных таблиц использовать графику - то мозг сразу схватывает на лету: вот летом рост продаж, вот осенью спад, вот пик на Новый год... Этот процесс, когда вместо сухих текстово-цифровых данных используется графика называется визуализация данных.

Еще раз, что же это такое?

Визуализация данных - это когда вместо цифр и букв вы видите рисунки. Очень замечательно, если картинки красивые, интуитивно понятные. Иначе же это - плохая визуализация. Смотрите вы этот рисунок, и мозгу становится хорошо. А всё потому, что половина (!) нейронов мозга занята обработкой визуальной (зрительной) информации. Нарисовал оси Икс и Игрек, накидал точек, провел между ними палку - и сидишь довольный. Мозгу это приятно, и при этом дешевле менее законных способов расслабить мозг.

Опять про мозг. Давайте ближе к делу!

И все равно, еще раз расскажу про мозг, чтобы было понятно, почему визуализация данных очень важна. Вот сухая выжимка фактов:

* 90% информации человек воспринимает через зрение
* в 60 000 раз быстрее воспринимается визуальная информация по сравнению с текстовой
* 10% человек запоминает из услышанного, 20% — из прочитанного, и 80% — из увиденного и сделанного

А так как сейчас эпоха очень больших данных, то пышным цветом расцвели всевозможные способы отображать информацию самыми различными способами.

Какие есть способы отобразить данные?

Основная сложность при визуализации данных - правильно подобрать способ, которым будет визуализироваться информация. Способов очень много, самые распространненый основан на использоваии двухмерных графики (то есть с двумя осями X и Y). На них могут накладываться линии, точки, области, рисоваться всякие геометрические фигуры.

Примеры простых 2хмерных графиков
Примеры простых 2хмерных графиков

И это самая-самая малость возможных графиков.
Формат этой статьи - исключительно введение, а рассказывать о каждом из этих графиков можно ну очень много. Поэтому вернемся к ним в отдельных статьях, а пока...

В качестве заключения. История о Storyteller'е.

За границей есть специальное название Data Scientist'а (или Data Analyst'а - аналитика данных), который умеет очень красиво и понятно визуализировать большие массивы информации - Data Storyteller (дословоно переводится "Рассказчик данных"). Его цель - не просто обложить данные графиками, а сдеать из них понятную "историю". Часто - снабжая визуализацию сопроводительным текстом. Бывает даже с привлечением дизайнера. Получается что-то типа интересного рассказа с картинками, только для взрослых дядь/тёть топ-менеджеров компаний.

Цифры и картинка позаимствованы с: https://habrahabr.ru/company/devexpress/blog/240325/