Big Data - это комбинация структурированных, полуструктурированных и неструктурированных данных, собранных организациями, которые могут быть извлечены для получения информации и использованы в проектах машинного обучения, прогнозном моделирования и других передовых аналитических проектах.
Системы, которые обрабатывают и хранят большие данные, стали обычным компонентом архитектур управления данными организаций, в сочетании с инструментами, которые поддерживают использование аналитики данных. Big Data часто характеризуются тремя Б:
- Большой объем данных во многих средах;
- Большое разнообразие типов данных, часто хранящихся в системах Big Data;
- Большая скорость, с которой генерируется, собирается и обрабатывается большая часть данных.
Хотя Big Data не приравниваются к какому-либо определенному объему данных, развертывание Big Data часто включает в себя терабайты, петабайты и даже эксабайты данных, созданных и собранных с течением времени.
Важность Big Data
Компании используют Big Data в своих системах для улучшения операций, улучшения обслуживания клиентов, создания персонализированных маркетинговых кампаний и принятия других мер, которые, в конечном счете, могут увеличить доходы и прибыль. Компании, которые эффективно используют ИТ, обладают потенциальным конкурентным преимуществом перед теми, кто этого не делает, потому что они способны принимать более быстрые и обоснованные бизнес-решения.
Например, Big Data предоставляют ценную информацию о клиентах, которую компании могут использовать для совершенствования своего маркетинга, рекламы и рекламных акций, чтобы повысить вовлеченность клиентов и коэффициент конверсии. Как исторические данные, так и данные в реальном времени могут быть проанализированы для оценки меняющихся предпочтений потребителей или корпоративных покупателей, что позволяет предприятиям более чутко реагировать на желания и потребности клиентов.
Big Data также используются медицинскими исследователями для выявления признаков заболеваний и факторов риска, а также врачами для диагностики заболеваний и состояния пациентов. Кроме того, сочетание данных из электронных медицинских карт, сайтов социальных сетей, Интернета и других источников предоставляет организациям здравоохранения и государственным учреждениям актуальную информацию об угрозах или вспышках инфекционных заболеваний.
Вот еще несколько примеров того, как Big Data используются организациями:
- В энергетической отрасли Big Data помогают нефтегазовым компаниям определять потенциальные места бурения и контролировать работу трубопроводов; аналогичным образом, коммунальные службы используют их для отслеживания электрических сетей.
- Фирмы, предоставляющие финансовые услуги, используют системы Big Data для управления рисками и анализа рыночных данных в режиме реального времени.
- Производители и транспортные компании полагаются на Big Data для управления своими цепочками поставок и оптимизации маршрутов доставки.
- Другие виды государственного использования включают реагирование на чрезвычайные ситуации, предупреждение преступности и инициативы "умный город".
Источники Big Data
Big Data поступают из множества источников - некоторые примеры включают системы обработки транзакций, базы данных клиентов, документы, электронную почту, медицинские записи, журналы кликов в Интернете, мобильные приложения и социальные сети. Он также включает данные, сгенерированные машиной, такие как файлы журналов сети и сервера, а также данные с датчиков на производственных машинах, промышленном оборудовании и устройствах Интернета вещей.
В дополнение к данным из внутренних систем, среды Big Data часто включают внешние данные о потребителях, финансовых рынках, погоде и дорожных условиях, географической информации, научных исследованиях и многом другом. Изображения, видео и аудиофайлы также являются формами Big Data, и многие приложения для больших данных включают потоковую передачу данных, которые обрабатываются и собираются на постоянной основе.
Как хранятся и обрабатываются Big Data
Большие данные часто хранятся в "озере данных". В то время как хранилища данных обычно строятся на основе реляционных баз данных и содержат только структурированные данные, "озера данных" могут поддерживать различные типы данных и обычно основаны на кластерах Hadoop, облачных службах хранения объектов, базах данных NoSQL или других платформах Big Data.
Многие среды Big Data объединяют несколько систем в распределенной архитектуре; например, центральное "озеро данных" может быть интегрировано с другими платформами, включая реляционные базы данных или хранилище данных. Данные в системах больших данных могут быть оставлены в необработанном виде, а затем отфильтрованы и организованы по мере необходимости для конкретных аналитических целей. В других случаях он предварительно обрабатывается с помощью инструментов интеллектуального анализа данных и программного обеспечения для подготовки данных, чтобы быть готовым к регулярному запуску приложений.
Обработка Big Data предъявляет высокие требования к базовой вычислительной инфраструктуре. Требуемая вычислительная мощность часто обеспечивается кластерными системами, которые распределяют рабочие нагрузки по обработке между сотнями или тысячами товарных серверов с использованием таких технологий, как Hadoop и механизм обработки Spark.
Получение таких производственных мощностей экономически эффективным способом является сложной задачей. В результате облако является популярным местом для систем больших данных. Организации могут развертывать свои собственные облачные системы или использовать управляемые предложения "Big Data как услуга" от облачных провайдеров. Облачные пользователи могут увеличить необходимое количество серверов ровно настолько, чтобы завершить проекты по анализу Big Data. Бизнес платит только за используемое хранилище и вычислительное время, а облачные экземпляры можно отключить до тех пор, пока они снова не понадобятся.
Проблемы Big Data
В связи с проблемами пропускной способности, проектирование архитектуры Big Data является общей проблемой для пользователей. Системы больших данных должны быть адаптированы к конкретным потребностям организации, самостоятельному предприятию, которое требует, чтобы ИТ-специалисты и команды по управлению данными объединили индивидуальный набор технологий и инструментов. Развертывание и управление системами Big Data также требуют новых навыков по сравнению с теми, которыми обычно обладают администраторы баз данных и разработчики, специализирующиеся на реляционном программном обеспечении.
Обе эти проблемы можно решить с помощью управляемой облачной службы, но ИТ-менеджерам необходимо внимательно следить за использованием облака, чтобы убедиться, что затраты не выходят из-под контроля. Кроме того, перенос локальных наборов данных и рабочих нагрузок обработки в облако часто является сложным процессом.
Другие проблемы в управлении системами Big Data включают обеспечение доступа к данным для специалистов по обработке данных и аналитиков, особенно в распределенных средах, которые включают в себя сочетание различных платформ и хранилищ данных. Чтобы помочь аналитикам находить соответствующие данные, команды управления данными и аналитики все чаще создают каталоги данных, которые включают функции управления метаданными и происхождения данных. Процесс интеграции наборов больших данных часто также сложен, особенно когда разнообразие данных и скорость являются факторами.
Человеческая сторона управления Big Data и аналитики
По мере увеличения объема сбора и использования Big Data, возрастает и вероятность неправильного использования данных. Общественный резонанс по поводу нарушений данных и других нарушений конфиденциальности персональных данных привел к тому, что Европейский союз утвердил Общие правила защиты данных (GDPR), закон о конфиденциальности данных, который вступил в силу в мае 2018 года. GDPR ограничивает типы данных, которые могут собирать организации, и требует согласия физических лиц или соблюдения других указанных причин для сбора персональных данных. Он также включает положение о праве на забвение, которое позволяет жителям ЕС просить компании удалить свои данные.
Чтобы обеспечить соблюдение таких законов, предприятиям необходимо тщательно управлять процессом сбора Big Data. Необходимо установить контроль для идентификации регулируемых данных и предотвращения несанкционированного доступа к ним сотрудников.
В конечном счете, бизнес-ценность и преимущества инициатив в области Big Data зависят от сотрудников, которым поручено управлять данными и анализировать их. Некоторые инструменты для работы с Big Data позволяют менее техническим пользователям запускать приложения для прогнозной аналитики или помогают компаниям развертывать подходящую инфраструктуру для проектов с Big Data, сводя к минимуму потребность в оборудовании и ноу-хау в распределенном программном обеспечении.
Big Data можно противопоставить "small data" - термин, который иногда используется для описания наборов данных, которые можно легко использовать для бизнес-аналитики и аналитики самообслуживания. Часто цитируемая аксиома гласит: "Big Data предназначены для машин, а small data предназначены для людей".
Не забывайте подписываться на наши социальные сети - Вконтакте, Instagram и Facebook