Найти в Дзене

Как выглядят большие данные?

Чтобы получить представление о том, как на самом деле выглядят большие данные и насколько они масштабны, нужно попробовать представить себе следующую статистику, если можно — без головокружения. Подумайте об Интернете, который в настоящее время охватывает сотни миллионов доменов и продолжает расти со скоростью в десятки тысяч новых доменов ежедневно. Данные, которые поступают из этих доменов, настолько массивны и умопомрачительны, что практически неизмеримы и тем более не поддаются никаким традиционным методам управления и поиска данных, которые доступны сегодня. И это только для начала. Добавьте к этому миллиарды ежедневных сообщений и сотни миллионов ежедневных обновлений в соцсетях, поступающих от миллиардов пользователей, и воображение точно переполнится. Не забудьте учесть объём данных, поступающих с миллиардов смартфонов, используемых сегодня, которые постоянно выходят в Интернет для ведения бизнеса в режиме онлайн, публикации обновлений статуса в социальных сетях, отправки сообщ

Чтобы получить представление о том, как на самом деле выглядят большие данные и насколько они масштабны, нужно попробовать представить себе следующую статистику, если можно — без головокружения. Подумайте об Интернете, который в настоящее время охватывает сотни миллионов доменов и продолжает расти со скоростью в десятки тысяч новых доменов ежедневно.

Данные, которые поступают из этих доменов, настолько массивны и умопомрачительны, что практически неизмеримы и тем более не поддаются никаким традиционным методам управления и поиска данных, которые доступны сегодня. И это только для начала. Добавьте к этому миллиарды ежедневных сообщений и сотни миллионов ежедневных обновлений в соцсетях, поступающих от миллиардов пользователей, и воображение точно переполнится. Не забудьте учесть объём данных, поступающих с миллиардов смартфонов, используемых сегодня, которые постоянно выходят в Интернет для ведения бизнеса в режиме онлайн, публикации обновлений статуса в социальных сетях, отправки сообщений и осуществления многих других цифровых операций. Вспомните, что миллиарды этих смартфонов оснащены системой позиционирования GPS, а это значит, что они постоянно подключены к Интернету и, следовательно, постоянно оставляют за собой цифровые следы, которые добавляют ещё больше данных к уже огромному объёму информации, уже хранящейся на десятках миллионов серверов, расположенных в Интернете.

И если воображение не отказывает до сих пор, попробуйте поразмыслить о сотнях миллиардов операций через платёжные терминалы магазинов ежегодно. Если и это вас ещё не выбивает из колеи, то почему бы не вспомнить и о десятках тысяч платежей по кредитным картам, которые ежесекундно осуществляются в Интернете или через другие подключённые устройства. Один только объём данных, которые непрерывно обрушиваются на каждого человека, просто невероятен. Если мы скажем, что он поражает воображение, — это будет преуменьшением. Более уместным было бы сказать, что он одурманивает человека.

Не удивляйтесь, но большие данные, которые были накоплены в Интернете за последние пять лет и теперь хранятся на десятках миллионов серверов, разбросанных по всему миру, намного превосходят все предыдущие данные, которые были созданы и записаны за всю историю человечества. Большие данные, о которых мы говорим, включают в себя всё, что попало в системы больших данных: разговоры в социальных сетях, содержимое веб-страниц, отслеживание местоположения в системе GPS, данные финансовых рынков, банковские операции в Интернете, потоковую музыку и видео, подкасты, спутниковые снимки и другое. По оценкам, каждый день мы создаём сотни миллионов терабайт данных. Этот массивный поток данных, который мы называем большими данными, со временем становится всё больше и больше. По оценкам экспертов, к 2025 году их объём достигнет уже сотен миллиардов терабайт.

По сути, если наборы данных становятся чрезвычайно большими или чрезмерно сложными для традиционных инструментов управления данными, они рассматриваются как большие данные. Проблема заключается в том, что не существует общепринятого потолка или приемлемого верхнего порогового уровня, за которым объём информации начинает классифицироваться как большие данные. На практике большинство компаний обычно считают большими данными те, которые уже переросли их собственные инструменты управления базами данных. В таком случае большие данные — это огромные данные, которые они больше не могут обрабатывать либо из-за их слишком большого объёма, либо из-за их сложности, либо из-за того и другого. Это означает, что потолок для разных компаний разный. Другими словами, у разных компаний разные верхние пороговые границы, определяющие, что такое большие данные. Почти всегда потолок определяется тем, какой объём данных могут обрабатывать их соответствующие инструменты управления базами данных в любой момент времени. Возможно, это одна из причин, почему определение больших данных так размыто.