Найти тему
жкх: вопросы и ответы

Что плохого в том, что в интернете о нас собирают личную информацию? Этика и BigData

Оглавление

Всем здравствуйте! Меня зовут Руслан Назаров, я юрист и автор канала ЖКХ: вопросы и ответы. В прошлом году я решил повысить квалификацию и получить дополнительную профессию. Теперь я еще и специалист по большим данным (Data Science).

В Дзене я завел дополнительный канал о том, сложно ли меня профессию после 30 лет, когда уже добился успехов в привычной сфере. А еще на канале "Юрист меняет профессию" я поднимаю всякие интересные темы, связанные с моей новой дополнительной специальностью - программированием, сбором и обработкой данных.

В частности сегодня я хочу поговорить о том, насколько это этически правильно - собирать данные о каждом пользователе в интернете? как их можно использовать и как используют на самом деле?

Как это относится к теме ЖКХ? Нужно понимать, что вся информация в интернете - это и есть большие данные. И коммунальные службы тоже собирают и обрабатывают информацию о нас. Ну, и раз вы читаете этот пост в интернете, значит оставили тут цифровой след. Значит, он где-то сохранился.

Еще в универе в 2006 меня заинтересовала тема интернета. И ничего не было в законодательстве, была парочка юридических статей. Наше законодательство отстает. История с твиттером Трампа показала, что еще в 1996 в США начали регулировать эти вопросы и в том числе ответственность IT компаний. Поэтому обращаюсь к евросоюзу. В этом выпуск - по исследованию "Этика больших данных: баланс экономической выгоды и вопросы этики в политике Евросоюза". В следующем выпуске я расскажу о правилах 2016/679 как о главном документе ЕС в этом вопросе.

В больших данных поражает, прежде всего, "большие". Вот свежие цифры в 2020:

  • 40 триллионов гигабайт данных,
  • 90% собрано за последний 2 года,
  • чтобы все выкачать человеку понадобится 181 млн лет,
  • информация, имеющая ценность для анализа составит 37%,
  • в 2019 году люди провели 1,2 миллиарда лет и всего 33% в соцсетях,
  • полмиллиона твиттов каждую минуту,
  • нетфликс экономит 1 миллиард долларов на удержании пользователей за счет больших данных,
  • 3 миллиона вакансий по аналитике,
  • 2 мегабайте создает каждый человек в секунду.

В видео-подкасте я рассказываю больше о сборе данных в интернете

В чем проблема сбора данных?

Сначала предельно общие, теоретические соображения. В чем собственно проблема? Что такое большие данные? Я дам такое свое определение - это данные, которые позволяют определить тренды поведения одного человека или группы лиц с математической точностью.

Раньше такого не было. Какая-нибудь организация, партия или церковь, знали своих членов. Но знали с общественной стороны. Могли влиять, но влияли на поведение, видимое с общественной стороны (даже если это оказывало какое-то обратное воздействие на частную жизнь). Кроме того, такое влияния носило скорее характер искусства, чем науки.

Иллюстрация:  я и большие данные 😂
Иллюстрация: я и большие данные 😂

Но сейчас есть возможность увидеть человека за пределами общества, перед монитором. И кроме того, сейчас можно понять человека с научной точностью. Именно это поднимает вопрос манипулирования на новый уровень. И именно это обостряет противоречия частной собственности.

Информация - новая нефть

Если информация - это сейчас новая нефть, то ничто так не показывает противоречие частной собственности, как проблема данных. Частная собственность на информацию, собственность крупных it компаний, впервые в истории берет под контроль человека. Такого раньше не было в таком масштабе и с такой точностью. По существу, именно развитие DS (Data Science) как производительной силы ведет к тому, что производственные отношения должны быть пересмотрены. Когда-то давно это была промышленная революция. Сейчас - революция DS. Первая революция создала капитализм, вторая должна создать коммунизм.

Однако надо учитывать, что у этого есть хорошая и плохая черта: теперь человека лучше можно понять, изучить.

Теперь перейдем к конкретике. Какие этические вопросы ставят BD?

Приватность

Здесь ключевая тема - это свобода одиночества. Не иметь маску, сбросить ее. Да, комментарии зло, но ведь с другой стороны, это выход за пределы навязанных норм.

Сила аналитики

Единичные данные не скажут так много, как группа данных. Сейчас можно собрать данные о человеке из разных источников. Фейсбук собирает ваши мысли из фейсбука, ваш отдых из инстаграма, вашу переписку. Так создается целостный образ человека. И это порождает возможность идентификации пользователя. Мы можем отнести человека к какой-то группе, имея данные из источников, которые очевидно не взаимосвязаны. Здесь возможна дискриминация.

-2

Распространение данных

Мы не знаем, как эти данные используются. Вот тот же пример с моим исследованием. Эти данные анализирую я, а откуда сам автор знает меня? И какие же у меня цели?

Создание индивидуальной реальности

Новости, рекомендации подстраиваются под наши интересы, как их видит и понимает алгоритм. Здесь есть проблема. Потому что с одной стороны лента нас хорошо отражает. Но с другой стороны, никто не может избежать ошибок. Вот например надо добиться точности обучения, скажем 0,9, вот эти 0,1 могут существенно на нас повлиять. Или вот выдача в поиске. Откуда это засилье википедии, почему наше представление формируется википедией.

Инерция цифрового профиля

Алгоритм знает меня прошлого и не может быстро перестроиться. Давайте такой пример, не совсем подходящий, но мысль передающий. Фильтрация комментариев в ютубе была как эксперимент запущена в 2017, но только в 2020 был подключен всем. Почему? Потому что нужен набор данных, большой набор для точности анализа. Здесь важно понимать, что это не было бы проблемой, если бы люди понимали, как работают алгоритмы, машинное обучение. Здесь я могу подтвердить, ведь я был по обе стороны и совсем недавно. Я помню свои представления прошлого июня и свое понимание этого года.

Радикализация

На основе наших интересов система подбирает мнения, статьи, предлагает друзей. И так мы попадаем, замыкаемся в определенной группе и это взаимно усиливает все, подталкивает нас к радикализации наших мнений. Кроме того, это формирует наше цифровое подсознание. И здесь надо учитывать, что нас относят к определенной группе, предлагают нам новости на этом основании. Это хорошо знают авторы Яндекс.Дзена.

-3

Управление данными после смерти

Здесь надо понимать, что вот раньше был популярен тезис, что мы живы, пока нас помнят. Но ведь сейчас нас нельзя забыть. Причем забыть-то бы иногда может было бы и не плохо. В любом случае мы на это не влияем.

Цифровой разрыв, когда цифровые средства есть не у всех, тогда их мнения не учитываются.

Владение информацией, цифровое рабство. Отчуждение личности.

Предвзятость алгоритмов

Машину учит человек. И нам только кажется, что такое обучение полностью независимое. Во-первых, опять-таки уровень точности определяет человек. Во-вторых, набор признаков определяет человек. В-третьих, вес признаков определяет человек. Да, все это можно минимизировать, но откуда же мы знаем, что это сделано. Да и минимизация может быть разной.