Найти тему
THE WALL Magazine

Big Data: как данные о человеке меняют человечество

Оглавление

Словосочетание Big Data повторило судьбу слова «инновации»: его употребляют как к месту, так и вовсе невпопад, но мало кто действительно понимает, что оно означает. На деле большие данные — то, с чем каждый из нас имеет дело почти каждый день.

Что это такое и как применяется, рассказывает Сергей Ширкин, декан факультетов Аналитики Big Data и Искусственного интеллекта GeekUniversity, образовательного портала GeekBrains.

Ваши данные собирают, но это не должно пугать

Когда мы говорим о Big Data, мы имеем в виду не просто большой объём информации, хотя и это тоже верно. Речь в первую очередь идёт о неструктурированных данных. Это огромный и хаотичный поток информации из разных источников, и, соответственно, возникает проблема с её обработкой и упорядочиванием. Когда упоминают большие данные, имеют в виду различные подходы и методы работы с ними.

Основной источник больших данных сейчас — компании, которые накапливают большое количество информации.

  1. Во-первых, это финансовый сектор, в котором проходит очень много транзакций.
  2. Во-вторых, ретейл. Когда люди делают покупки, участвуют в акциях, пользуются скидками, это даёт большой массив данных.
  3. В-третьих, это диджитал-маркетинг. Чтобы грамотно настраивать таргетированную рекламу, организации собирают данные о том, чем человек интересуется, как ведёт себя в интернете, на какие сайты заходит.
  4. В-четвёртых, это сотовые операторы.

На первый взгляд, то, что так много компаний собирают информацию о вас, выглядит пугающе. Но чаще всего информация о клиенте передаётся обезличенной. Организации не очень интересуются вашими персональными данными.

Речь скорее идёт об ID, который присваивается некой личности в интернете. И это порождает одну из важных проблем больших данных: как из совокупности этих ID вычленить принадлежащие одному человеку.

На первый взгляд, то, что так много компаний собирают информацию о вас, выглядит пугающе. Но чаще всего информация о клиенте передаётся обезличенной. Организации не очень интересуются вашими персональными данными

Скажем, у вас есть телефон, планшет и ноутбук, и с каждого устройства зафиксирована активность. Если на каждом из них вы зарегистрировались с одного и того же аккаунта, понять, что это один человек, легко.

В противном случае подходить к задаче приходится более творчески. Например, сопоставлять пользовательское поведение разных интернет-личностей и предполагать, что двумя устройствами пользуется один человек.

Большие данные могут быть числовыми или текстовыми, реже — картинками, аудио, видео.

Большие данные делают всё более предсказуемым

Сфера применения больших данных огромна. Чаще их используют для прогнозирования — предсказания каких-либо событий, либо для рекомендаций.

Например, если говорить о финансах, с помощью больших данных можно рассчитать, вернёт ли человек кредит. Для прогноза используются различные критерии — брал ли человек кредиты до этого, как выплачивал, какие у него были взаимоотношения с банком, как вели себя люди с похожими поведенческими паттернами.

На их основе строится модель, которая позволяет не просто сказать, вернёт человек кредит или нет, а с какой вероятностью он это сделает. Затем такое значение вероятности преобразовывают в скоринговый балл — чем он выше, тем более благонадежен клиент.

На основе данных о том, как человек ведёт себя в интернете, на какие сайты заходит, что вбивает в поиске и на какие объявления кликает, можно предположить, перейдёт он по рекламной ссылке или нет. Для компании это повышает эффективность рекламы. Но и для человека полезно: ему предлагают то, что действительно нужно.

…строится модель, которая позволяет не просто сказать, вернёт человек кредит или нет, а с какой вероятностью он это сделает

Прогноз можно строить не только для конкретной интернет-личности на основе её поведения. Если условно десять человек демонстрируют одинаковые интересы, делают одинаковый выбор, то велика вероятность, что для одиннадцатого человека, который движется в этом же тренде, выбранный сценарий тоже подойдёт.

Точность прогноза зависит от количества и качества данных — чем их больше, чем они свежее, тем меньше вероятность ошибки. Влияет также территория. Если построить прогноз для России, то его не получится применить во Франции, он не будет работать.

Что касается построения долгосрочных прогнозов, здесь многое зависит от области, так как рынок может меняться. В финансовой сфере речь обычно идёт о двух-трёх годах. Но модели прогнозирования изменяются каждую неделю, а прогноз обновляется каждый день, что даёт возможность получить более точную картину. В то же время случаются неожиданные изменения, которые модели не всегда могут уловить.

Точность прогноза зависит от количества и качества данных — чем их больше, чем они свежее, тем меньше вероятность ошибки. Влияет также территория

С другой стороны, долгосрочные прогнозы сами по себе стабилизируют экономику. Участники рынка, имея на руках сценарии развития, могут избегать резких движений и неоправданных решений. 

Большие данные могут формировать картину мира

Об экономике мы уже поговорили, но и в целом для общества это работает. Благодаря анализу данных можно предсказывать поведение больших групп людей. Большие данные позволяют не просто заранее знать, что выберут представители той или иной аудитории, но и прогнозировать, как изменится этот выбор со временем.

Читать полностью...