Найти тему
Энергия+

Что такое Big data и как это работает? Рассказываем просто о сложном!

Все говорят о цифровизации, но что это на самом деле? Сегодня мы вам расскажем о ее основных инструментах, и начнем с "больших данных", или big data - что это, откуда взялось и зачем нужно?

Бурный рост цифровых технологий и интернет-активности в начале 2000-х отразился на всех отраслях экономики, от продаж товаров и услуг до сложных производств. Одно из характерных последствий этих перемен — глобальное увеличение количества и качества данных и появление новых методов работы с ними. В 2010 году исследовательская компания Gartner опросила более 1000 компаний из 8 стран. Согласно итогам опроса, из-за роста масштабов Всемирной паутины, а также благодаря усиливающейся цифровизации бизнеса ежегодный прирост количества данных в этих компаниях составил от 40 до 60%. При этом эксперты отмечали, что наравне с увеличением скорости поступления новых данных сократилось время на принятие решений на основе их анализа.

Были предприняты попытки дать определение феномену взрывного роста объемов и разнообразия данных, который получил название big data, или «большие данные». Например, Мерв Адриан из Gartner дал следующее определение: «Большие данные — это такие данные, захват, управление и обработку которых невозможно выполнить при помощи традиционно используемых аппаратных платформ и программных инструментов в течение промежутка времени, приемлемого для пользователей».

Похожее определение дала компания McKinsey: «Большие данные — это такие наборы данных, размеры которых превосходят возможности типичных систем управления базами данных по их сбору, хранению, управлению и анализу».

Исследовательская компания IDC считала, что «технологии big data описывают новое поколение технологий и архитектур, предназначенных для экономически целесообразного извлечения ценности из больших объемов самых разнообразных данных при помощи высокоскоростного захвата, исследования и/или анализа».

Консенсус заключался в том, что реляционные системы, до последнего времени применявшиеся для хранения и управления данными, оказались не предназначены для работы с большими данными как с точки зрения их типов и разнообразия, так и скорости роста их объемов. Новые типы данных (текст, изображения, видео/аудио, логи посещений сайтов, гео-пространственные данные, данные с датчиков промышленных систем) требовали других, легко масштабируемых и более дешевых технологий сбора, хранения и обработки. И такие технологии появились.

Экосистема

Большая заслуга в появлении технологий работы с big data принадлежит компании Google. Благодаря характеру своего бизнеса Google постоянно сталкивалась с необходимостью обработки не просто больших, а гигантских объемов данных, причем растущих на постоянной основе. С начала 2000-х годов Google для своих внутренних нужд разработала ряд технологий, многие из которых послужили отправной точкой для появления продуктов с открытым кодом, лежащих в основе экосистемы Hadoop.

Hadoop и другие технологии, получившие коллективное название NoSQL (Not only SQL — не только SQL, то есть не только реляционные базы данных, основным языком общения с которыми был язык программирования SQL), сыграли главную роль в обеспечении возможности хранения и обработки больших данных. Основная идея новой экосистемы состоит в распределении задач по хранению и обработке данных между сотнями и тысячами различных узлов, что позволяет наиболее эффективно задействовать машинные ресурсы, минимизируя при этом риски потери данных в случае выхода из строя отдельных узлов.

Для пользователей идея распределенной обработки данных вылилась в появление облачных интернет-сервисов. Размещение вычислительных систем в облаке позволило компаниям заниматься аналитикой больших данных без необходимости развертывать у себя всю нужную инфраструктуру и содержать штат сотрудников для ее эксплуатации и поддержки. Также появились более приемлемые с точки зрения безопасности гибридные аналитические системы, отдельные подсистемы которых расположены в облаке, а какие-то — на самом предприятии.

Почему большие данные оказывают такое влияние на настоящее и будущее как самого бизнеса, так и всего общества в целом? Дело в том, что в ходе их анализа можно получить новую, ранее недоступную информацию и знание, причем с небывалым уровнем детализации.

В промышленности использование аналитики данных помогает многим компаниям добиться ощутимых результатов, решая задачи повышения эффективности производства и оптимизации оборудования, управления качеством продукции, обслуживания оборудования по состоянию. Например, такие крупнейшие производители электронных устройств и компьютерных компонентов, как Intel и Micron, используют аналитические технологии для контроля за выходом продукции и управления качеством. Получаемый эффект может исчисляться значительными суммами, если учесть, что для таких компаний увеличение выхода продукции даже на 1% означает порядка 100 миллионов долларов дополнительной выручки.

Возможности аналитики больших данных могут стать и дополнительным сервисом. «Финский производитель оборудования для выпуска бумаги и бумажной продукции, компания Valmet, предоставляет своим заказчикам сервис, который благодаря анализу больших данных предотвращает внеплановые остановки линий. Потери от таких остановок могут составлять порядка 30 миллионов евро для производителя бумаги, — рассказывает старший индустриальный консультант „Teradata Россия“ Олег Кузьменко. — За год одной линией генерируется около 760 миллионов событий. При помощи анализа этих данных удалось выделить набор событий, который помогает предсказать наступление незапланированной остановки оборудования. По словам Valmet, им удается выдать предупреждение заказчику о грядущем ЧП за 2 часа до остановки линии».

В России с большими данными успешно работают такие компании, как Сбербанк, ВТБ24, МТС, Мегафон. Например, МТС и Мегафон при помощи больших данных решают задачи геоаналитики, цифрового маркетинга, клиентской аналитики, гарантирования доходности. Сбербанк использует большие данные для борьбы с мошенниками, проведения маркетинговых кампаний, финансовой аналитики.

Список тех, кто уже смог по достоинству оценить возможности big data, постоянно пополняется. Появляются и новые триггеры для этой тенденции: следующим толчком к гигантскому росту объемов данных эксперты называют интернет вещей.

-2

Большой бизнес

В нефтегазовой индустрии аналитика больших данных используется как в разведке и добыче, так и в переработке и сбыте. Последнее десятилетие лидеры отрасли активно инвестировали в автоматизацию производства, и эти вложения уже приносят немалую отдачу. Однако компании стремятся получать еще большую выгоду от этих инвестиций за счет анализа накопленных данных.

Американская нефтеперерабатывающая компания Andeavor использовала данные, поступающие с установки атмосферной перегонки нефти, для построения аналитической модели энергопотребления, что в итоге помогло уменьшить затраты на газовое топливо, относящееся на НПЗ к одной из основных статей расходов.

Компания Repsol использует аналитику данных для получения полной, детальной картины о своих клиентах, а также о продажах на каждой АЗС (топливо, магазин, кафе, сопутствующие услуги), которых у компании более 4700. В частности, решение задач о продажах на АЗС помогло добиться получения наилучшей цены от поставщиков, снизить потери от упущенных продаж за счет своевременного формирования заказов и выбора подходящего ассортимента, запустить процесс распространения лучших практик на каждую АЗС, получить достоверную картину о бизнесе франшиз, проводить более эффективные промоакции, уменьшить воровство персонала, устанавливать гибкое ценообразование.

Накопленные данные становятся активом предприятия, таким же, как основные средства или финансовые вложения. Уже прижился и никого не удивляет лозунг, что «данные — это новая нефть».

Подписывайтесь на канал!

Как блокчейн изменит будущее авиаперевозчиков
Блокчейн: как он работает и почему эта технология изменит нефтянку
Что общего у криптовалюты и нефтяной платформы?

Оригинал статьи и другие материалы читайте на сайте журнала: www.gazprom-neft.ru/press-center/sibneft-online/

С подпиской рекламы не будет

Подключите Дзен Про за 159 ₽ в месяц