Найти в Дзене

5. Визуализация данных на Python

Для научных проектов и проектов машинного обучения важны и описание данных, и их визуализация, поскольку для выбора подходящего алгоритма часто бывает необходим зондирующий анализ набора данных. С этой целью используются специальные библиотеки в Python. Но вне можно использовать сервис Tableau — это сервис для бизнес-анализа и визуализации отчётов, создания графиков и дашбордов (это информационная панель, которая получает данные из других систем и отображает их в понятном виде). Tableau работает в браузере, также у него есть десктопные версии для устройств на Windows и macOS. Функциональность десктопных версий шире. К сервису можно подключить базы данных MySQL, PostgreSQL, Oracle, SQL Server, Amazon Redshift, Google BigQuery. Можно импортировать данные из файлов Excel, CSV, JSON, PDF. Также Tableau поддерживает интеграцию с облачными сервисами, такими как Google Analytics, Salesforce, Amazon Web Services, Microsoft Azure и другими. Из библиотек Python о функционалу Seaborn превосходит
Оглавление

Для научных проектов и проектов машинного обучения важны и описание данных, и их визуализация, поскольку для выбора подходящего алгоритма часто бывает необходим зондирующий анализ набора данных. С этой целью используются специальные библиотеки в Python.

Но вне можно использовать сервис Tableau — это сервис для бизнес-анализа и визуализации отчётов, создания графиков и дашбордов (это информационная панель, которая получает данные из других систем и отображает их в понятном виде). Tableau работает в браузере, также у него есть десктопные версии для устройств на Windows и macOS. Функциональность десктопных версий шире. К сервису можно подключить базы данных MySQL, PostgreSQL, Oracle, SQL Server, Amazon Redshift, Google BigQuery. Можно импортировать данные из файлов Excel, CSV, JSON, PDF. Также Tableau поддерживает интеграцию с облачными сервисами, такими как Google Analytics, Salesforce, Amazon Web Services, Microsoft Azure и другими.

Из библиотек Python о функционалу Seaborn превосходит Pandas и MathPlotLib — благодаря функциям статистической оценки данных в процессе наблюдений и визуализации пригодности статистических моделей для этих данных.

MathPlotLib

- библиотека для визуализации данных двумерной и трёхмерной графикой. Получаемые изображения могут быть использованы в качестве иллюстраций в публикациях.

Matplotlib – это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python. Графики Seaborn и Pandas были построены на основе Matplotlib — когда вы используете Seaborn или df.plot() в Pandas, вы фактически используете код, который использует для построения Matplotlib. Таким образом, эстетика для них схожа, и настройка ваших графиков будет выглядеть очень похожим образом.

Matplotlib — это низкоуровневая библиотека, которая обеспечивает невероятные уровни настройки (так что не стоит исключать ее как вариант для презентации!), Но есть много других инструментов, которые делают великолепную графику, достойную презентации, намного проще. Matplotlib также имеет набор стилей, которые по внешнему стилю имитируют другие популярные пакеты, такие как ggplot2 и xkcd. НАСТОЯЩИЙ ggplot - в R.

50 оттенков matplotlib

Seaborn

— бесподобная библиотека визуализации, основанная на Matplotlib. Она предоставляет из себя высокоуровневый интерфейс для рисования привлекательных графиков.

Plotly

Нужно понимать, что matplotlib создавался задолго до бурного развития Data Science, и в большей мере ориентировался на отображение массивов NumPy и параметрических функций SciPy. В то же время в Data Science распространен обобщающий тип объектов – датасеты, крупные таблицы с данными. Здесь стоит обратить внимание на работу с альтернативной библиотекой – plotly.

Plotly – это интерактивная библиотека построения графиков с открытым исходным кодом на основе браузера для Python, Plotly работает offline. В ней есть сл. части - Front-End на JS, Back-End на Python (за основу взята библиотека Seaborn) и Back-End на R. Виды графиков в Plotly рассматриваются здесь.

Так же на базе plotly и веб-сервера Flask существует специальная библиотека для создания дашбордов Dash. Она не входит ни в стандартный пакет, ни в Anaconda. Для этого рекомендуется использовать pip:
pip install plotly.

Dash

является довольно интересным Веб-фреймворком для визуализации данных и имеет в семе довольно много полезных функций в сочетании с простотой их применения. Dash это некий коллаб  HTML, React.Js, Flask  и CSS и предоставляет python классы для всех своих визуальных компонентов.

Altair

— это декларативная библиотека визуализации данных, разработанная на основе языка Vega и Vega-Lite. Она предоставляет высокоуровневый интерфейс для создания информативных и красочных графиков с минимальными усилиями. Основная философия Altair заключается в том, что пользователи должны описывать, что они хотят увидеть на графике, а не как это реализовать. Это делает код более читаемым и интуитивно понятным.

Bokeh

Bokeh это красиво. Концептуально похож на ggplot в том, что он тоже использует грамматику графики для структурирования своих фигур. Bokeh имеет простой в использовании интерфейс, который создает очень профессиональные графики и информационные панели.

Apache Superset

  • это библиотека для визуализации и исследования данных по типу Tableau. Apache Superset несколькими способами позволяет вам многое делать с вашими данными, используя только простые SQL-запросы.