Слишком большой объем данных может поставить под угрозу результаты, потребителей и окружающую среду.
3 КАЧЕСТВА ХОРОШИХ ДАННЫХ
- Организованность. Данные должны иметь контекст, а также метки, которые помогают придать им смысл.
- Чистота. Набор данных, по которому вы оптимизируете, должен быть полностью свободен от сигналов, основанных на активности бота.
- Целенаправленность. Данные должны быть точными, полными и иметь назначение.
Выбор между быстрым вознаграждением и долгосрочными интересами также является обычным явлением для многих современных компаний. Часто возникает вопрос балансирования между удовлетворением сиюминутных потребностей бизнеса и ориентацией на конечные цели или использованием момента, одновременно следя за тем, чтобы двигаться к целям.
Должны ли мы использовать все имеющиеся у нас данные? Учитывая давление со стороны регулирующих органов и руководства, нам все чаще требуется знать, откуда были получены наши данные, как они обрабатывались и кто их создал. Безопасно ли это? Какого они качества? Какой объем данных мы можем хранить? С кем мы можем поделиться ими?
Чем больше данных, тем они лучше…
Наука о принятии решений говорит нам, что наличие некоторых данных, как правило, лучше, чем их отсутствие. Один исследователь однажды провел исследование, в ходе которого группе профессиональных игроков предоставлялось все больше данных при постоянном измерении точности их ставок.
Они и обнаружили, что наличие некоторых данных, как правило, лучше, чем их отсутствие. Но после определенного момента предоставление игроку большего количества данных фактически снизило точность его ставок, а не увеличило ее (Слович и Лихтенштейн, 1973).
Во многом это связано с тем, что можно назвать отношением сигнал / шум. В любом наборе данных есть сигнал (важная информация, к которой вы должны прислушаться) и шум (бессмысленная, отвлекающая информация). Как правило, чем больше данных, тем больше шума, а не сигнала. Если материала слишком много, его качество и полезность могут стать сомнительными.
Как неточные данные могут представлять опасность для потребителей?
Прекрасной иллюстрацией того, как неограниченное использование больших данных может пойти не так, является история Джеймса и Терезы Арнольд.
Семья Арнольдс переехала на свою ферму площадью 623 акра в округе Батлер, штат Канзас, в марте 2011 года. В течение следующих нескольких лет к ним неоднократно наведывались сотрудники правоохранительных органов, расследующие серию преступлений. Мошенничество с налогами, угнанные автомобили, украденные кредитные карты — все это было связано с этой фермой в округе Батлер. Либо это место было волной преступлений на одной ферме с ужасающей концентрацией событий, либо систематическая ошибка привела к ложному допросу этой семьи.
Последний вывод был сделан компанией по анализу геолокации. Эти компании хранят, обрабатывают и помогают подключать IP-адреса к более широким наборам данных. В частности, они предоставляют географические координаты для IP-адресов. Дайте им IP-адрес, и они скажут вам, где он официально зарегистрирован. По большей части.
Но IP-адреса могут быть ненадежными источниками информации. Компании, занимающиеся геолокационной аналитикой, знают все тонкости географической классификации IP-адресов. Всякий раз, когда они сталкиваются с IP-адресами, идентифицировать которые особенно проблематично, они помещают их в цифровую корзину. Эта корзина просто помечена как точный географический центр Соединенных Штатов (или удобный набор координат вблизи этого центра).
Всякий раз, когда технически подкованный преступник маскировал IP-адрес, компания соответствующим образом классифицировала эту деятельность. Местоположение фермы округа Батлер всплывало в базе данных, к которой затем подключались власти, что приводило к посещениям и рейдам на невинную ферму днем и ночью. Это продолжалось 15 лет, пока семья не подала в суд.
Непроверенные данные Могут создать угрозу конфиденциальности
Конфиденциальность пользователей и безопасность данных стали основными проблемами индустрии цифровых измерений. Мониторинг и отслеживание поведения пользователей становится все более неустойчивым, и существующие подходы, предусматривающие отслеживание или снятие отпечатков пальцев, будут все чаще подвергаться сомнению в отношении конфиденциальности.
Проблема для большинства компаний заключается в том, что тип и природа данных, которые можно считать личными, изменчивы и постоянно расширяются. Это больше не ограничивается только адресами электронной почты или определенными личными идентификаторами, но и тем, что можно комбинировать с другими наборами данных для профилирования. Сбор и использование самих IP-адресов, естественный побочный продукт большинства цифровых рекламных кампаний, все чаще оказывается под прицелом регулирующих органов.
По мере того, как регулирующие органы расширяют свои правила конфиденциальности, любой бизнес, который не фильтрует собранные, купленные и заимствованные наборы данных и не управляет ими, рискует навлечь штрафы, репутационный ущерб и многое другое.
Чем больше Поступающих неверных данных, тем больше дезинформации
Мы все являемся свидетелями зарождения популярных генеративных инструментов искусственного интеллекта. ChatGPT становится одним из самых быстрорастущих потребительских приложений, а также находит повседневное применение во многих сферах бизнеса.
По мнению некоторых (включая правительства некоторых стран Европы), это также способствует предоставлению неточной или вводящей в заблуждение информации, при этом не уведомляет пользователей о своей практике сбора данных и не соответствует ни одному из обоснований обработки персональных данных на уровне GDPR.
Это оставит многие предприятия открытыми для законодательных рисков, которые только появляются. Кроме того, это повысит эффективность бизнес-процессов, которые управляют и фильтруют любые поступающие данные, генерируемые искусственным интеллектом, на которые полагаются при принятии фундаментальных решений. Способность большинства компаний определять, что является подделкой, а что реальным в некоторых секторах, таких как реклама, уже была проблемой.
Определение безопасности бренда и соответствия окружающей среде становится только сложнее, поскольку шум превосходит сигнал. Представьте мир, в котором большая часть данных и изображений генерируется искусственным интеллектом.
Большее количество обрабатываемых данных влияет на окружающую среду
Облако теперь используется для описания любого удаленного хранилища данных и вычислений. Оно невесомое и намеренно расплывчатое: ваши данные где-то там, в лучшем месте, где вы можете забыть о них. Это резко контрастирует с промышленной реальностью миллионов удаленных серверов, иногда спрятанных под землей в центрах обработки данных, которые являются гигантскими, шумными и требуют огромного количества энергии. Мы можем представить цифровое облако как безмолвное, эфирное и не опосредованное. Однако реальность облака воплощена в тысячах этих огромных центров обработки данных.
На планете насчитывается более семи миллионов таких центров обработки данных, любой из которых может потреблять столько же электроэнергии, сколько город среднего размера. Примечательно, что они также являются крупнейшим источником выбросов углерода в глобальных ИТ.
По некоторым оценкам, центры обработки данных по всему миру потребляют более 2% мировой электроэнергии и производят такой же объем выбросов углекислого газа, как мировая авиационная отрасль (в пересчете на потребление топлива).
Решение проблемы слишком большого объема данных
Решение заключается в приоритизации качественных данных за длительный период по сравнению с большими данными за короткий период. Качество и время отделяют сигнал от шума. По возможности следует стремиться к детализированным, безопасным для конфиденциальности и широким по охвату данным. Они должны быть организованными, чистыми и целенаправленными:
Организованность. Данные должны иметь контекст. У них должны быть метки, которые помогают придать им смысл.
Чистота. Учитывая, что половина цифровой экосистемы управляется ботами и все больше наполняется искусственным интеллектом, должна быть гарантия, что набор данных, который вы оптимизируете, полностью свободен от сигналов, основанных на активности ботов.
Целенаправленность. Данные должны быть не только точными и полными, но и иметь цель. На самом базовом уровне назначение набора данных определяется тем, кто за него платит. Но наилучшие типы показателей — это те, которые имеют цель.