При появлении больших данных появилось множество терминов.
- Data science - наука о данных
- Big data - большие данные
- Data mining - "добывание" данных
- Data engineering - конструирование данных
- и термин, описывающий один из алгоритмов работы с данными Machine learning машинное обучение.
- мне самым точным определением больших данных кажется определение Кирилла Еременко в книге "Работа с данными в любой сфере"[Работа с данными в любой сфере: Как выйти на новый уровень, используя аналитику / Кирилл Еременко; Пер. с англ.. – М.: Альпина Паблишер, 2019. – 303с. ]:
Если Вы не в состоянии работать с данными стандартными методами, можно называть их большими данными
Как любая новая технология, ей приписываются большие возможности и перспективы. Но все используемые алгоритмы давно известны математикам, программистам, статистикам. Просто раньше люди не генерировали такого большого числа данных и отсутствовали технические возможности их обработки.
Несмотря на все достоинства и возможности применения больших данных, хочется отметить их ограничения и риски использования.
Ограничения больших данных
- Необходимы большие выборки данных. Прежде чем воспользоваться различными алгоритмами, необходимо накопить массив подобных ситуаций. Для интернет-магазина, например, нужно множество похожих покупок.
- Непрозрачность решения. Алгоритм не выдает формулу, по которой происходит вычисление. А значит, ручная "доводка" и анализ невозможны.
- Решения базируются на прошлом. Резкое изменение внешних для системы условий невозможно предугадать. А система будет нуждаться в "переобучении" иногда только после накопления нового массива данных.
Риски использования больших данных
- Кибербезопасность. Данные, в том числе содержащие персональную информацию, могут быть похищены.
- Этичность. Теряется понятие частной жизни, ведь с широким распространением камер, смартфонов и безналичной оплаты в систему попадают практически все действия.
- Закрытость порождает широкие возможности манипулирования. Так как решение непрозрачно, не исключена возможность взлома с последующей корректировкой алгоритма, который будет выдавать якобы основанное на данных решение. И этот взлом может быть никогда не вскрыт.
Ну и самое главное. Самое сложное при работе с данными это создание адекватной модели, иначе сработает простой жизненный принцип
Мусор на входе = мусор на выходе
Этот пост заканчивает серию публикаций про визуальные, математические и статистические приемы, позволяющие правильно понимать данные рейтингов, а именно:
Дальше все посты будут посвящены рейтингам и работе с ними. А пока делитесь в комментариях, какие Вы видите риски использования больших данных?