Big Data — как подростковые отношения в средней школе. Все ими хвастаются, но на самом деле мало кто знает, что это такое. Расскажем, как понять, что перед вами большие данные, и начать с ними работать.
Проблема в названии
На русский язык Big Data переводится как «большие данные». Но большие — это сколько? Таблица в Экселе на 500 000 строк — это много? Текст на 2 мегабайта — много? А распечатки графиков температуры всех метеостанций Архангельской области — много или ещё недостаточно?
Тут многие айтишники скажут, что эти примеры представляют собой довольно внушительное количество информации. Действительно, с такой точки зрения, все перечисленное — большие данные. Но что вы скажете про таблицу в Экселе на миллиард строк? Это тоже большие данные — и куда побольше тех!
На интуитивном уровне специалисты, далекие от Big Data, привыкли называть большими данными любой объем информации, который сложно удержать в голове и/или который занимает много места. И такое интуитивное определение, конечно же, неправильно.
Как понять, что перед вами действительно Big Data
Профессора американских университетов и айтишники топовых американских компаний (места, где зародилось понятие «большие данные») выделяют три критерия, по которым можно понять, что перед вами Big Data.
- Данные должны быть в цифровом виде. Это должны быть биты и байты. Стопка книг в национальной библиотеке — это тоже массив информации, но к Big Data никак не относится.
- Данные должны поступать в объективно больших объемах и накапливаться с большой скоростью. Например, база заказов интернет-магазина по продаже колясок может быть большой, например, 10 миллионов заказов за 20 лет, но пополняется она со скоростью 100 заказов в сутки — это не большие данные. Фильм в высоком качестве может занимать десятки гигов, но со временем его размер не растет — это тоже не большие данные. А вот записи показателей пары сенсоров в двигателе Боинга, поступающие в количестве несколько гигабайт в час и загружаемые на диагностический сервер производителя авиатехники, — это уже самая настоящая Big Data.
- Слабая структурированность и упорядоченность данных. Заказы в онлайн-магазине упорядочены, из них легко извлечь дополнительные статистические параметры (средний чек, самые популярные товары), полезные для принятия решений. Поэтому они — не Big Data. Показания датчиков температуры с корпуса самолета, записанные за последние 6 месяцев, — информация, в которой есть польза, но не очень понятно, как ее извлечь. Можно, конечно, рассчитать средние значения температуры за бортом самолета за полгода, но какой в этом смысл? А если погрузиться в анализ этих данных глубоко — можно вытащить много неочевидной информации. Например, о длительности перелетов, скорости набора высоты, климатических условиях за бортом и т. д. Информация интересная и полезная, но трудноизвлекаемая, значит, это Big Data.
Итак, BigData — трудноанализируемая цифровая информация, накапливаемая со временем и поступающая к вам солидными порциями.
А мне это все зачем, напомните?
Когда в любом айти-проекте начинают работать с данными, в первую очередь анализируют наиболее очевидные, значимые и понятные показатели. Так, если речь идет об онлайн-торговле, в первую очередь смотрят на средние чеки заказов, топ продаж и объемы складских запасов. Когда речь идет о самолетах — смотрят скорость, высоту, расход топлива.
Сбор и анализ очевидных метрик позволяет вносить в систему простые и понятные корректировки. Такие улучшения практически сразу дают ощутимый результат. Это называется «сбор фруктов с нижних веток дерева».
По мере эволюции системы инженеры прорабатывают все видимые узкие места в проекте. После этого начинается стагнация продукта: для поиска новых путей развития нужно лезть выше, чтобы собрать плоды с более высоких веток. Инженеры и аналитики начинают собирать и анализировать косвенные данные, напрямую не связанные с основными метриками проектов.
Например, в онлайн-торговле можно собирать со страниц магазина данные о перемещении курсора (или пальца) по экрану. Или собирать данные с большего числа сенсоров самолета, например: число оборотов двигателя, состав топливно-воздушной смеси, забортную температуру и температуру выхлопа.
Эти данные напрямую не связаны с основными метриками IT-системы, но при правильном анализе могут рассказать много интересного о возможных точках оптимизации в проекте. Работа с такими данными — как поиск нефти. Нужно пробовать разные места, применять различные стратегии поиска и извлечения скрытых ресурсов, спрятанных в данных. Далеко не все попытки будут успешны, но в итоге находки могут принести массу выгоды.
Что нужно для работы с Big Data
- Готовьте много места. Данных будет немало, нужно быть готовыми где-то их хранить. Также информация может поступать с высокой скоростью, поэтому заранее смотрите, чтобы ширины входного канала и скорости дисков хватало для обработки входящего потока байтов.
- Готовьте больше серверов. Данные нужно не только хранить, но и как-то обрабатывать. Из-за больших объемов вам, скорее всего, придется разбивать информацию на порции и обрабатывать их параллельно на разных машинах. Для этого придется заранее озаботиться достаточным количеством железа для вычислений.
- Готовьте правильные инструменты. Айтишники много лет занимаются поиском крупиц золота в горах разнообразных больших данных. Для их расчетов создано много надежных, классных и быстрых инструментов, например: Hadoop, Spark и другие. Познакомьтесь с основными продуктами на рынке и выберите, что подойдет вам.
Подготовка инфраструктуры занимает много времени, поэтому лучше переложить ее на плечи профессиональных админов и присмотреться к облачным решениям по обработке Big Data. В этом случае и диски, и серваки, и Hadoop со Spark вы получите в готовом виде — уже настроенном, оптимизированном, прогретом и ждущем ваших задач.
Дивный новый мир больших данных
Айтишники, ныряющие в мир больших данных, часто находят в его глубинах информацию, которая позже коренным образом меняет бизнес и уровень прибыли. А иногда Big Data может изменить видение продукта в целом. Копаться в больших данных всегда сложно, но очень интересно. Вкладывайте время и усилия в эту страну цифровых чудес — и ваш труд обязательно окупится!
Оригинал статьи: https://mcs.mail.ru/blog/big-data-vse-govoryat-no-malo-kto-shchupal/