Найти тему

Риски привлечения больших данных

При появлении больших данных появилось множество терминов. 

  • Data science - наука о данных
  • Big data - большие данные
  • Data mining - "добывание" данных
  • Data engineering - конструирование данных
  • и термин, описывающий один из алгоритмов работы с данными Machine learning машинное обучение.
  • мне самым точным определением больших данных кажется определение Кирилла Еременко в книге "Работа с данными в любой сфере"[Работа с данными в любой сфере: Как выйти на новый уровень, используя аналитику / Кирилл Еременко; Пер. с англ.. – М.: Альпина Паблишер, 2019. – 303с. ]:
Если Вы не в состоянии работать с данными стандартными методами, можно называть их большими данными

Как любая новая технология, ей приписываются большие возможности и перспективы. Но все используемые алгоритмы давно известны математикам, программистам, статистикам. Просто раньше люди не генерировали такого большого числа данных и отсутствовали технические возможности их обработки.

Несмотря на все достоинства и возможности применения больших данных, хочется отметить их ограничения и риски использования.

Ограничения больших данных

  1. Необходимы большие выборки данных. Прежде чем воспользоваться различными алгоритмами, необходимо накопить массив подобных ситуаций. Для интернет-магазина, например, нужно множество похожих покупок.
  2. Непрозрачность решения. Алгоритм не выдает формулу, по которой происходит вычисление. А значит, ручная "доводка" и анализ невозможны.
  3. Решения базируются на прошлом. Резкое изменение внешних для системы условий невозможно предугадать. А система будет нуждаться в "переобучении" иногда только после накопления нового массива данных.

Риски использования больших данных

  1. Кибербезопасность. Данные, в том числе содержащие персональную информацию, могут быть похищены. 
  2. Этичность. Теряется понятие частной жизни, ведь с широким распространением камер, смартфонов и безналичной оплаты в систему попадают практически все действия.
  3. Закрытость порождает широкие возможности манипулирования. Так как решение непрозрачно, не исключена возможность взлома с последующей корректировкой алгоритма, который будет выдавать якобы основанное на данных решение. И этот взлом может быть никогда не вскрыт.

Ну и самое главное. Самое сложное при работе с данными это создание адекватной модели, иначе сработает простой жизненный принцип 

Мусор на входе = мусор на выходе

Этот пост заканчивает серию публикаций про визуальные, математические и статистические приемы, позволяющие правильно понимать данные рейтингов, а именно:

Дальше все посты будут посвящены рейтингам и работе с ними. А пока делитесь в комментариях, какие Вы видите риски использования больших данных?