Большие данные (Big data) – это массивы любых неоднородных данных, как имеющих, так и не имеющих ценности, у которых чем быстрее растет объем, тем больше становится самих данных. При этом количество пакетов таких данных велико, а размер одного пакета небольшой.
Что в себя вмещает, к примеру, 1 терабайт данных? Это может быть 250 тыс. фотографий, сделанных 12-мегапиксельной камерой, или 250 фильмов, или 6,5 млн страниц текстовых документов. Это много или мало? Для размещения бумажного аналога такого количества информации потребуется более 1000 шкафов с документами. Очевидно много. Но… не все данные, занимающие много места, принято называть большими данными, или big data. Термин применяется лишь к тем, которые удовлетворяют принципу VVV, расшифровывающемуся как Volume, Velocity, Variety, что означает «объем, скорость обновления и разнообразие».
Первые в мире центры обработки данных появились в 1960-1970е гг. В 1981 году IBM создает первый персональный компьютер. 1983 год считается началом эпохи интернета. И понеслось...
Резкий скачок объема данных произошел не так давно, в 2005 году с появлением YouTube, Facebook и других платформ с возможностью добавления пользовательских данных. в 2006 году компания Amazon предложила клиентам новый сервис Elastic Computing Cloud.
Название big data появилось в 2008 году, редактор журнала Nature Клифорд Линч предложил называть этим термином поток из 150 гб неоднородных данных в сутки. Платежная система «Биткоин» стала первым применением технологии блокчейн, основанной на больших данных. Она описывает и шифрует транзакции по финансовым операциям. В это время активно развиваются и запускаются проекты в сфере интернета вещей.
В России первая пользовательская сеть 5G запущена в 2021 году.
Как работают технологии с big data
С RFID-метками жители мегаполисов сталкиваются постоянно, хотя могут этого и не замечать. Самый простой пример – покупка книги в книжном магазине. Под обложкой встречаются квадратные белые стикеры, под которыми, если их отклеить, есть металлические контакты и крошечный микрочип.
Такие метки, или транспондеры, хранят информацию об объектах, которым они присвоены. В случае с книгой это могут быть название, автор, цена и код магазина. Покупатель, выходя из книжного отдела, услышит сигнал на рамке. На складе роль считывателя может выполнять соответствующий терминал.
А теперь представим, что такими метками оклеены абсолютно все товары на складе и их число увеличивается, как снежный ком, с каждой новой единицей произведенной продукции. И сотни тысяч позиций необходимо ежедневно вносить в базу данных. При этом данные о предыдущих товарах не удаляются. Рано или поздно мощности обычного компьютера не хватит ни на хранение, ни на вычисления таких больших данных. Такое под силу только центрам обработки данных (ЦОД), оснащенным суперкомпьютерами.
Экономный алгоритм
В мировой практике большие данные помогают предотвращать мошеннические операции со счетами клиентов. Так, компании MasterCard удается ежегодно спасти от кражи более 3 млрд долл. США.
Вычисления с big data используют IBM, Google, Facebook, VISA, а также министерства разных стран мира. В Германии, к примеру, большие данные помогли остановить незаконную выдачу пособий по безработице. При помощи технологии было установлено, что часть граждан получает их совершенно безосновательно.
В Южной Корее big data использовалась для борьбы с пандемией коронавируса. Данные о нарушениях режима собирались с камер наблюдения, мобильных телефонов, автомобильных GPS-модулей и кредитных карт. Приложение на основе собранной информации не только выписывало штрафы, но и оповещало пользователей о скоплениях людей и наличии в непосредственной близости заразившихся.
В России рынок больших данных находится в стадии становления. Его участниками являются такие компании, как «Яндекс», «Сбер» и Mail.ru.
Отечественный сервис Ctrl2GO предлагает различные технологические решения на основе big data, например систему автопилотирования на основе машинного зрения. Ее алгоритмы обрабатывают данные с сенсоров поезда и принимают решение о действиях на локомотиве менее чем за четверть секунды. Это гораздо быстрее, чем реакция любого машиниста, даже если он бодр и максимально сконцентрирован.
С ростом объема данных, с одной стороны, будет увеличиваться парк оборудования для вычислений. С другой стороны, будут сокращаться издержки на маркетинг, защиту банковских операций и обслуживание производственного оборудования за счет использования нейросетей, блокчейн-технологии и цифровых двойников.
О том, как применяют big data в московских компаниях, читайте в наших следующих материалах.
Может вам понравиться:
#bigdata #большие данные #биткоин #блокчейн #промышленность #история технологий #современные технологии #технологии и интернет #интернет