Найти тему
IT Raccoon

Что такое визуальная аналитика или визуальный анализ?

Оглавление

https://pixabay.com/ru/photos/%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%B9%D1%82%D0%B5-%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B2%D0%BE%D1%80%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE-3026190/
https://pixabay.com/ru/photos/%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%B9%D1%82%D0%B5-%D1%81%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B2%D0%BE%D1%80%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE-3026190/

Визуальную аналитику нелегко определить из-за ее междисциплинарного характера, включающего в себя множество процессов и широкий спектр областей применения. Ранним определением была "наука аналитического мышления, подкрепляемая интерактивными интерфейсами человек-машина". Однако, исходя из существующей практики, более конкретное определение могло бы быть сформулировано следующим образом: "Визуальная аналитика сочетает автоматизированные методы анализа с интерактивной визуализацией для эффективного понимания, обоснования и принятия решений на основе очень больших и сложных наборов данных".

Таким образом, с точки зрения цели визуального анализа, мы можем развить это определение, чтобы заявить, что визуальный анализ - это создание инструментов и методов, позволяющих людям делать следующее:

  1. Синтезировать информацию и получить представление из массивных, динамичных, неоднозначных и часто противоречивых данных.
  2. Обнаружить ожидаемое и обнаружить неожиданное.
  3. Предоставлять своевременные, обоснованные и понятные оценки.
  4. Эффективное доведение результатов этой оценки до сведения общественности для принятия конкретных мер.

Для начала, чтобы дать представление о социальной и экономической важности визуального анализа, а также о масштабах обрабатываемых данных, мы рассмотрим некоторые типичные области его применения.

Применение визуальной аналитики

Визуальный анализ необходим в тех областях применения, где необходимо обрабатывать и анализировать большие информационные пространства. Основные области применения - физика и астрономия. Например, астрофизическая дисциплина предлагает множество возможностей для методов визуального анализа: огромные объемы неструктурированных данных, поступающих из разных направлений космоса и охватывающих весь частотный спектр, от непрерывных потоков терабайтных данных, которые могут быть записаны и проанализированы. Используя общие методы анализа данных, астрономы могут отделять соответствующие данные от шума, анализировать сходства или сложные закономерности и получать полезные знания о Вселенной, но подход визуального анализа может существенно поддержать процесс выявления неожиданных явлений внутри массивных и динамических потоков данных, которые иначе не были бы найдены стандартными алгоритмическими средствами. Мониторинг климата и погоды также является областью, требующей огромного объема данных, собираемых датчиками по всему миру и со спутников за короткие промежутки времени. Визуальный подход может помочь интерпретировать эти огромные объемы данных и получить представление о взаимозависимости климатических факторов и сценариев изменения климата, которые в противном случае было бы непросто определить. Помимо прогнозов погоды, существующие прикладные программы визуализируют глобальное потепление, таяние полюсов, разрушение озонового слоя стратосферы, а также предупреждения об ураганах и цунами.

В области управления аварийными ситуациями визуальный анализ может помочь определить текущий ход аварийной ситуации и определить последующие контрмеры (например, строительство физических контрмер или эвакуацию населения), которые должны быть приняты для ограничения ущерба. Такие сценарии могут включать природные или метеорологические катастрофы, такие как наводнения или волны, вулканы, штормы, пожары или эпидемии (например, вирус N1H1), а также техногенные катастрофы, такие как промышленные аварии, транспортные аварии или загрязнение окружающей среды. Визуальная аналитика для безопасности и географии является важной темой исследования. Область применения в этом секторе широка - от информатики терроризма, защиты границ, обнаружения путей проникновения до сетевой безопасности. Визуальная аналитика поддерживает исследование и обнаружение сходств и аномалий в очень больших массивах данных. Например, в мировом масштабе ежедневно поступает более 210 миллиардов сообщений электронной почты, 4 миллиардов SMS, 90 миллионов твитов, а количество пакетов IP-данных превышает 9000 миллиардов. В качестве примера обработки документов на европейском уровне Europe Media Monitor собирает новостные документы из 2 500 источников: порталов СМИ, правительственных веб-сайтов и информационных агентств и обрабатывает 80-100 000 статей в день на 43 языках.

В биологии и медицине компьютерная томография и ультразвуковая визуализация для трехмерной цифровой реконструкции и визуализации дают гигабайты медицинских данных. Область применения биоинформатики использует методы визуального анализа для анализа больших объемов биологических данных. С самого начала секвенирования ученые в этих областях сталкиваются с беспрецедентным объемом данных, как в проекте генома человека с тремя миллиардами пар оснований на человека. Другие новые области, такие как протеомика (исследования белков в клетке), метаболизм (систематическое изучение уникальных химических отпечатков пальцев, которые оставляют после себя специфические клеточные процессы) или комбинаторная химия с десятками миллионов соединений, ежедневно пополняют массив данных. Подсчет всех возможных комбинаций с применением грубой силы часто невозможен, однако интерактивные визуальные подходы могут помочь определить основные области интереса и исключить бесперспективные области.

Еще одной важной областью применения визуальной аналитики является бизнес-аналитика. Финансовый рынок с его сотнями тысяч активов ежедневно генерирует большие объемы данных, что приводит к чрезвычайно высоким объемам данных в течение многих лет. Например, по оценкам, в день проводится более 300 миллионов операций по кредитным картам VISA. Основная задача в этой области заключается в анализе данных с различных точек зрения и предположений для понимания исторических и текущих ситуаций, а затем мониторинг рынка с целью прогнозирования тенденций или выявления повторяющихся ситуаций. Другими ключевыми приложениями в этой области являются выявление мошенничества, анализ данных о потребителях, социальных данных и данных, связанных с медицинскими услугами.

Процесс визуального анализа

Процесс визуального анализа сочетает в себе автоматические и визуальные методы анализа с тесной связью посредством взаимодействия с человеком для получения знаний из данных.

Во многих сценариях применения необходимо интегрировать разнородные источники данных, прежде чем могут быть применены визуальные или автоматические методы анализа. Поэтому первым шагом часто является препроцессирование и преобразование данных для получения различных представлений для дальнейшей разведки. Другие типичные задачи предварительной обработки включают очистку данных, нормализацию, группирование или интеграцию разнородных источников данных.

После трансформации аналитик может выбрать между визуальным и автоматическим методами анализа. Если вначале используется автоматизированный анализ, то для создания моделей исходных данных применяются методы анализа данных. После создания модели аналитик должен оценить и усовершенствовать ее, что лучше всего сделать, взаимодействуя с данными. Визуализация позволяет аналитикам взаимодействовать с автоматическими методами, изменяя параметры или выбирая другие алгоритмы анализа. Визуализация модели может быть использована для оценки результатов генерируемых моделей. Для процесса визуального анализа характерно чередование визуальных и автоматических методов и ведет к постоянному уточнению и проверке предварительных результатов. Таким образом, вводящие в заблуждение результаты на промежуточном этапе могут быть обнаружены на ранней стадии, что приведет к лучшим результатам и повышению доверия. Если сначала выполняется визуальное исследование данных, то пользователь должен подтвердить сформировавшиеся гипотезы с помощью автоматизированного анализа. Взаимодействие пользователя с визуализацией необходимо для получения глубокой информации, например, путем увеличения масштаба различных областей данных или рассмотрения различных визуальных представлений о данных. Результаты визуализации могут быть использованы для управления построением модели в автоматическом анализе. Таким образом, в процессе визуального анализа знания могут быть получены из визуализации, автоматического анализа, а также из предшествующих взаимодействий между визуализациями, моделями и человеческими аналитиками.

Процесс визуального анализа направлен на тесную связь между автоматизированными методами анализа и интерактивными визуальными представлениями. Руководство по визуальному изучению данных "Сперва обзор, потом зум/фильтр, подробности по запросу", предложенное Шнейдерманом в 1996 году, описывает, как данные должны быть представлены на экране. Однако при наличии огромных наборов данных трудно создать визуализацию обзора без потери интересных шаблонов, что делает методы масштабирования и фильтрации практически ненужными, так как пользователи получают мало информации о том, что исследовать дальше. В контексте визуального анализа руководство может быть полезно расширить следующим образом: "Сначала проанализируйте, покажите важное, увеличьте/отфильтруйте, проанализируйте подробности по запросу", указывая, что недостаточно просто извлечь и отобразить данные с помощью визуальной метафоры. Скорее, необходимо проанализировать данные в соответствии с их ценностью, показывая наиболее важные аспекты данных, и в то же время предоставить модели взаимодействия, позволяющие получить по запросу детали.

Строительные блоки исследования визуальной аналитики

Визуальная аналитика объединяет науку и технику из многих дисциплин. Визуализация занимает центральное место в системе, она не только является средством передачи значений данных или результатов некоторых анализов, но и все чаще используется для мониторинга процессов в других дисциплинах, таких как управление данными и их анализ. Теперь мы кратко рассмотрим дисциплины, способствующие визуальной аналитике.

Визуализация

Визуализация появилась как новая исследовательская дисциплина за последние два десятилетия. Она может быть широко классифицирована на научную и информационную визуализацию.

Научная визуализация в первую очередь связана с визуализацией трехмерных (3D) данных из мира техники, биологии (сканирование всего тела вплоть до молекулярных структур), метеорологии, космологии и так далее, с целью представления данных, часто временных, как физических объектов, таких как поверхности, объемы и потоки. Часто 3D скалярные поля визуализируются с помощью изоповерхностей (3D контур) или полупрозрачных облаков точек. Кроме того, в последние годы значительная работа была сосредоточена на визуализации сложных 3D потоковых данных, например, в аэрокосмической технике. В то время как текущие исследования в основном сосредоточены на повышении эффективности методов визуализации для обеспечения интерактивного исследования, все больше и больше методов разрабатывается для автоматического определения соответствующих параметров визуализации. Кроме того, такие методы взаимодействия, как фокус и контекст, приобретают все большее значение в научной визуализации.

Визуализация информации разработала методы визуализации абстрактных данных, не содержащие прямых пространственных ссылок. Типичными примерами являются деловые данные, демографические данные, социальные сети и научные данные. Мы имеем дело не только с огромными объемами, но и с данными, которые часто состоят из сотен измерений. Кроме того, в дополнение к стандартным цифровым и текстовым типам данных, некоторые из этих измерений могут быть сложными типами данных, такими как графические, видео, звуковые и сложные типы данных, которые теперь определены для семантической сети. Значения данных нельзя естественным образом сопоставить с пространством 2D или 3D дисплея, как при научной визуализации, а стандартные методы построения диаграмм, такие как x-y графики, линейные графики и гистограммы, неэффективны при использовании больших многомерных наборов данных. Кроме того, как отмечалось выше, способность взаимодействовать с данными чрезвычайно важна. Были разработаны новые визуализации, такие как параллельные координаты, древовидные карты, визуальные представления данных на основе глифов и пикселей, а также различные методы уменьшения помех при отображении. Существуют также специальные методы визуализации структурированных данных, такие как графический подход к сетям, а также визуализация пространственных и временных измерений, как описано ниже в разделе "Гео-визуализация". Кроме того, некоторые визуализации используют автоматические методы анализа данных, такие как кластеризация или уменьшение размеров, в качестве шага предварительной обработки перед визуализацией.

Управление данными

Эффективное управление данными различных типов и качеств является ключевым компонентом визуального анализа, поскольку обычно обеспечивает ввод данных, которые должны быть проанализированы. Как правило, необходимым условием для проведения любого вида анализа данных является наличие интегрированной и согласованной базы данных. Исследования баз данных до последнего десятилетия были сосредоточены главным образом на аспектах эффективности и масштабируемости точных запросов на единообразные структурированные данные. С появлением Интернета и легкостью доступа к различным источникам данных основное внимание в исследованиях, связанных с базами данных, сместилось в сторону интеграции этих разнородных данных. Поиск эффективного представления различных типов данных, таких как числовые данные, графики, текстовые, аудио и видео сигналы, полуструктурированные данные, семантические представления и т.д., является ключевой проблемой современной технологии баз данных. Однако наличие разнородных данных требует не только интеграции множества различных типов и форматов данных, но и их очистки, например, при работе с отсутствующими и неточными данными. Современные приложения требуют такого интеллектуального синтеза данных, который был бы практически осуществим в режиме реального времени и как можно более автоматическим. Кроме того, новые формы источников информации, такие как потоковые источники данных, сенсорные сети или автоматическое извлечение информации из больших коллекций документов (например, текста, HTML), создают сложную проблему анализа данных. В настоящее время это является основной темой исследования баз данных. Методы управления данными все чаще используют интеллектуальные методы анализа данных, а также визуализации для оптимизации процессов и информирования пользователей.

Обработка данных

В области интеллектуального анализа данных разрабатываются вычислительные методы автоматического извлечения ценной информации из исходных данных с помощью алгоритмов автоматического анализа. Существуют различные подходы, один из которых - контролируемое извлечение уроков из примеров, когда на основе набора учебных выборок используются детерминированные или вероятностные алгоритмы для изучения моделей классификации (или прогнозирования) ранее невиданных выборок данных. Схемы принятия решений, машины с векторами поддержки и нейронные сети являются примерами контролируемого обучения. Другим подходом является неконтролируемое обучение, например, кластерный анализ[54] , целью которого является извлечение структуры из данных без наличия предварительных знаний. Решения этого класса используются для автоматической группировки экземпляров данных в классы на основе взаимного сходства, а также для выявления отклонений в шумных данных в процессе предварительной обработки данных. Другие подходы включают в себя анализ правил ассоциации (анализ повторяемости элементов данных) и уменьшение размеров. Хотя анализ данных первоначально был разработан для структурированных данных, в последнее время целью исследований является анализ полуструктурированных и сложных типов данных, таких как веб-документы или мультимедийные данные. Почти во всех алгоритмах анализа данных необходимо указывать различные параметры, и эта проблема, как правило, не является тривиальной и часто требует наблюдения специалиста-человека. Интерактивная визуализация может помочь в этом, а также может быть использована для представления результатов автоматического анализа, так называемого "визуального анализа данных".

Анализ пространственно-временных данных

Пространственные данные - это данные с привязками к реальному миру, такие как географические измерения, данные GPS-положения и данные дистанционного зондирования; по существу, данные, которые могут быть представлены на карте или диаграмме. Поиск пространственных связей и закономерностей в этих данных представляет особый интерес, что требует разработки соответствующих функций управления, представления и анализа (например, разработки эффективных структур данных или определения функций расстояния и сходства). С другой стороны, временные данные зависят от времени, т.е. со временем значение переменных данных может меняться; важные задачи анализа здесь включают выявление закономерностей, тенденций и корреляции элементов данных с течением времени. Для широкого круга областей, таких как финансы и инженерное дело, были предложены функции анализа, зависящие от применения, и схожие метрики для связанных со временем данных.

Анализ данных со ссылками как в пространстве, так и во времени, пространственно-временных данных, усложняет масштаб и повышает степень неопределенности. Например, часто бывает необходимо масштабировать карты для поиска закономерностей на обширных и локализованных территориях, и так же со временем мы можем захотеть проследить тенденции, которые происходят в течение одного дня, и другие, которые происходят ежегодно. С точки зрения неопределенности пространственно-временные данные часто являются неполными, интерполированными, собранными в разное время или основанными на различных предположениях. К другим вопросам, связанным с пространственно-временными данными, относятся сложные топологические связи между объектами в космосе, обычно очень большие массивы данных и потребность в специализированных типах данных. Кроме того, все больше и больше геопространственных данных в настоящее время становятся доступными для сообществ, не являющихся экспертами, и эти "аналитики" нуждаются в инструментах для использования этого богатого источника информации.

Восприятие и познание

Восприятие и познание представляют собой более гуманную сторону визуальной аналитики. Визуальное восприятие - это средство, с помощью которого люди интерпретируют свое окружение и, что самое главное, изображения на дисплее компьютера. Познание - это способность понимать эту визуальную информацию и делать выводы, в значительной степени основанные на предыдущем обучении. Вся система чрезвычайно сложна, и потребовались десятилетия исследований в таких областях, как психология, когнитология и нейронаука, чтобы попытаться понять, как зрительная система достигает этого успеха так быстро. В течение многих лет считалось, что "видение" - это в целом пассивная деятельность с подробной "картой мира", тогда как сейчас мы понимаем, что она очень активна, только поиск и отбор визуальной информации, которая актуальна для решения текущей задачи. Знание того, как мы "думаем визуально" важно при проектировании пользовательских интерфейсов и вместе с практическим опытом в области взаимодействия человека и компьютера, поможет в создании методов и инструментов для проектирования методов мультимодального взаимодействия на основе восприятия, визуализации и исследования больших информационных пространств, а также в оценке удобства использования таких систем .

Визуальная аналитика опирается на эффективную инфраструктуру для объединения многих функций, выполняемых различными дисциплинами, в целях создания целостной системы. Кроме того, оценка имеет решающее значение для определения как эффективности, так и удобства использования таких систем.

Инфраструктура

Инфраструктура призвана объединить все процессы, функции и услуги, необходимые приложениям визуального анализа, чтобы они работали согласованно и позволяли пользователю эффективно и действенно решать свои задачи по поиску данных. Это сложно, поскольку программные инфраструктуры, создаваемые различными технологиями, как правило, несовместимы на низком уровне, и это еще более усложняется, поскольку одним из фундаментальных требований визуального анализа приложений является высокая интерактивность. По этой причине большинство приложений визуального анализа в настоящее время являются самостоятельными приложениями, созданными на заказ, например, с использованием системы хранения данных в памяти, а не системы управления базами данных. Проектирование системной и программной архитектуры имеет первостепенное значение для успешного применения наиболее подходящих технологий в приложениях. Кроме того, повторное использование многих распространенных компонентов приведет к тому, что приложения станут более адаптируемыми и будут построены намного быстрее.

Оценка

Исследователи и разработчики продолжают создавать новые методики, методы, модели и теории, но очень важно оценивать эффективность, действенность и восприятие этих инноваций пользователями в стандартной форме, чтобы их можно было сравнивать и выявлять потенциальные проблемы. Однако, оценка очень сложна, учитывая исследовательский характер визуальной аналитики, широкий спектр опыта пользователей, разнообразие источников данных и фактические задачи, стоящие перед ними. В области визуализации информации оценка только недавно стала более заметной. Было признано, что общее понимание таксономии в отношении основных типов данных и задач пользователей, которые необходимо поддерживать, является весьма желательным для формирования исследования визуальной аналитики.

В настоящее время диверсификация и распространение исследований и разработок в области визуального анализа сосредоточены на конкретных областях применения. Хотя такой подход может отвечать требованиям каждого из этих приложений, более строгий и научный подход, основанный на эффективных и воспроизводимых методах оценки, приведет к лучшему пониманию данной области и более успешной и эффективной разработке инновационных методов и приемов.