Big Data – совокупность разнообразных структурированных и неструктурированных данных сверхбольшого объема, которые можно обрабатывать и получать из них новую воспринимаемую человеком информацию, а также инструменты работы с ними.
Под этим термином подразумевается не некий конкретный объем данных, а серия методов, подходов и инструментов обработки данных, которые позволяют с ними работать. Все это можно применить как к огромным массивам данных (например, все страницы во всемирной сети либо персональные данные, включающие ФИО, электронную почту, номер телефона, возраст, геолокацию, IP-адрес и т.д.), так и к небольшим (информация в одном excel-документе).
Иначе говоря, Big data представляет собой широкий инструментарий, который способен извлечь смысл из неструктурированных данных на максимально возможном уровне практического применения.
История Big Data
Ввод понятия в широкое использование связывают с Клиффордом Линчем, известным издателем и редактором журнала Nature. Выпуск издания от 3 сентября 2008 года был посвящен росту объемов информации, в контексте чего и было употреблено выражение «big data». Уже к 2011 году крупнейшие мировые IT-корпорации, в числе которых HP, IBM, Oracle, EMС, Microsoft, используют в своей деятельности большие данные. В этом же году Gartner отметила Big Data как один из трендов-лидеров в мире технологий, а в 2015 году признала переход от теоретизированного “шума” к применению на практике.
Источники данных:
- социальные сети;
- радиочастотные идентификаторы;
- геоданные;
- GPS-сигналы от автомобилей;
- транзакционная деловая информация;
- различные архивы;
- оцифрованные книги;
- логи поведения пользователей в интернете;
- интернет вещей;
- астрономические наблюдения;
- метеорологические данные;
- показания устройств (аудио, видео, датчиков).
Данные накапливаются практически в любой сфере человеческой жизни, особенно связанной с вычислениями или взаимодействием с другими людьми. Именно поэтому акцент идет на соцмедиа, медицину и т.д.
Признаки и принципы Big Data
В 2001 году Meta Group выработала набор признаков, которые являются определяющими для Big Data – VVV:
- Volume (объем) – физический объем;
- Velocity (скорость) – скорость прироста и быстрой обработки данных;
- Variety (многообразие) – возможность одновременной обработки данных разных видов (структурированные или частично структурированные).
Сейчас существуют версии с другими V:
- Veracity – подлинность;
- Variability – жизнеспособность;
- Value – ценность;
- Variability – вариативность;
- Visualization – наглядность.
Однако, классической до сих пор считается формация VVV.
Технологии Big Data
Все технологии, которые используется в работе с Big Data, можно разбить на три большие группы:
- для непосредственного анализа данных
Тестирование, проверка гипотез, machine learning (например, Apache Spark, Elasticsearch); - сбор и хранение данных
Различные БД и облачные хранилища (например, Apache Hadoop, NoSQL, PostgreSQL); - средства визуализации
Таблицы, графики, BI-системы (например, Tableau, Power BI, Qlik).
Выбор конкретного инструментария для выполнения той или иной задачи тесно связан с кейсом и требованиями заказчика.
Преимущества:
- продвижение товаров/услуг
получение доступа к данным из поисковых систем и иных ресурсов дает возможность организациям намного точнее составлять прогнозы и маркетинговые стратегии; - совершенствование сервиса для потребителей
отпадает традиционная система фидбэков, которая заменяется на новую, где Big Data используется для восприятия и оценки отзыва покупателей; - операционная эффективность
необходимую информацию найти становится проще, и, благодаря объединению больших данных и хранилищ данных, организации могут оптимизировать собственную работу.
Еще больше статей на нашем сайте - processmi.com