Аналитики данных имеют дело с большими наборами данных, чем когда-либо прежде, что затрудняет опрос. Визуализированный исследовательский анализ данных, поддерживаемый передовыми параллельными вычислениями, обещает ответ.
Поскольку человечество начинает свое сосуществование с искусственным интеллектом, стоит отметить, что один из важнейших методов продвинутого обучения, по крайней мере в сфере данных, существует более полувека.
Исследовательский анализ данных (EDA), термин, введенный известным статистиком Джоном Тьюки, представляет собой метод первоначального понимания и разработки представления определенного набора данных до начала глубокого исследования. В EDA статистические методы используются для описания характеристик данных с целью генерации начальных гипотез.
В эпоху Big Data, когда размер наборов данных обычно увеличивается до петабайт, EDA важна как никогда. Большинство хранилищ информации сегодня просто слишком велики, сложны и разнообразны, чтобы исследовать их с помощью механического численного анализа.
Более того, поскольку большая часть данных в мире теперь носит геопространственный (основанный на местоположении) характер, аналитики сталкиваются с дополнительными проблемами. Эти наборы данных могут включать изменения во времени (пространственно-временные данные); способность характеризовать такие многомерные данные и быстро получать представление о них является важным шагом, особенно в критических ситуациях, таких как реагирование на стихийные бедствия.
Интуитивно понятный смысл
Эффективные, интуитивно понятные возможности визуальной аналитики будут жизненно важны для успеха EDA в условиях растущего потока информации. Люди предрасположены воспринимать сложную информацию в визуальных терминах. Карты являются прекрасным примером; формы, цвета, линии, контрольные точки и сравнительный масштаб - все это способы, с помощью которых люди быстро усваивают значение карт.
Визуальное представление - это то, чего не хватает электронным таблицам. Выполнение EDA, с использованием программного обеспечения для работы с электронными таблицами, требует много времени для составления формул и фильтров. Электронным таблицам не хватает скорости как в вычислениях, так и в коммуникации, чтобы аналитики могли быстро выявлять взаимосвязи и генерировать идеи.
Масштабируемая визуализация также позволяет аналитикам работать со скоростью, соответствующей их естественному любопытству. В большинстве профессиональных сценариев данные больше не предназначены для создания отчета; они предназначены для обучения. Аналитикам нужны инструменты, помогающие определять, какие вопросы следует задавать, и на основе ответов определять, какими должны быть следующие вопросы. Эта естественная форма запроса, ставшая возможной благодаря высокопроизводительному анализу данных, не только объединит несовместимые системы, но и будет стимулировать понимание.
Визуальный EDA на практике
Новые варианты использования визуализированного EDA появляются почти ежедневно. В оборонных / разведывательных операциях визуально управляемый EDA может сочетать данные разведывательного наблюдения и рекогносцировки (ISR) с информацией датчиков Интернета вещей, сигнальной разведкой, кибернетикой, логистикой и даже социальными сетями. Используя новейшее аналитическое программное обеспечение, которое использует возможности параллельной обработки графических процессоров, аналитики могут визуализировать миллиарды записей за миллисекунды. Это позволяет им отслеживать передвижение транспортных средств, судов и групп людей, чтобы устанавливать схемы передвижения с течением времени. Во время пандемии COVID-19 это позволило исследователям находить возникающие горячие точки и совершенствовать директивы по минимизации передачи вируса.
Телекоммуникации - еще одна область, в которой можно извлечь выгоду из раннего этапа визуального анализа данных. Сетевые команды находят огромную ценность в том, что сначала объединяют различные наборы данных Системы поддержки операций (OSS), а затем выполняют EDA, чтобы не только ответить на известные вопросы, но и генерировать новые идеи и возможности. Она помогает оптимизировать производительность сети, снизить отток клиентов и повысить удовлетворенность клиентов; что касается продукта, visual EDA поддерживает плавное внедрение новых сервисов и обновлений программного обеспечения.
Технология автономных транспортных средств вскоре изменит мир неисчислимым образом. Используя визуально улучшенную EDA, автопроизводители получают уникальную возможность быстро изучить схемы использования транспортных средств после покупки. Производителям оборудования и поставщикам услуг стало проще просматривать реальные данные, чтобы лучше предугадывать желания и потребности клиентов, что приводит к созданию более совершенных продуктов и услуг.
Бесценный инструмент
Для любого человека или предприятия, которому необходимо исследовать огромные объемы данных, возможность интерактивного и визуального изучения больших объемов позволяет эксперту в предметной области легко находить тенденции, аномалии и смысл в огромном массиве данных. Сочетая правильные знания предметной области и интуицию с беспрецедентными возможностями зрительной коры головного мозга человека по подбору шаблонов, можно получить информацию, которая часто остается незамеченной при более традиционных подходах к одноранговым запросам или статическим отчетам. Таким образом, масштабные EDA с визуальным наддувом образуют основу более широкой аналитики и науки о данных, включая применение шлюзовых технологий, таких как искусственный интеллект и машинное обучение.
Платформы анализа данных следующего поколения также начинают активно использовать визуализацию как средство быстрого запроса данных. Вместо того, чтобы просто предоставлять аналитику простые статические отчеты, эти системы позволяют пользователям интерактивно щелкать по данным для перекрестной фильтрации и детализации, создавая тесный итеративный цикл обратной связи от гипотезы к вопросу, к ответу и обратно.
Самой большой ловушкой для EDA является ограниченность данных. Слабые места, особенно отсутствующие или неполные наборы данных, могут привести компании к неверным выводам. Для любого проекта команде необходимо учитывать возможные ограничения и внешние переменные. Они также должны учитывать извечное предупреждение о том, что корреляция не равна причинно-следственной связи. Однако, комбинируя возможности визуальной аналитики с более формальным статистическим тестированием и методами машинного обучения (иногда на одной платформе), можно значительно снизить риск чрезмерного сопоставления с шаблоном.
Визуальный EDA будет необходим для решения проблем, связанных с большими данными. EDA, поддерживаемая и дополняемая технологиями ускоренной аналитики, предоставит бизнесу, академическим кругам, науке, технике, общественной безопасности и другим секторам беспрецедентные возможности для извлечения ответов из ранее недоступных для отслеживания наборов данных. . В сочетании с внедрением искусственного интеллекта и методологий машинного обучения это гарантирует, что огромный объем собираемых в настоящее время данных можно будет использовать для принятия более качественных и быстрых решений.