За последние несколько лет государство создало немало законов о защите персональных данных. Конечно, такая мера необходима. Мы живем в цифровом мире, и наши данные повсюду: сервисы государственных услуг, интернет-банки, всевозможные сайты, медицинские клиники, онлайн-магазины, курсы — все владеют о нас какой-то информацией. И, конечно, данные о человеке можно обернуть против него самого.
Но, несмотря на опасность, люди готовы сделать свою персональную информацию публичной ради возможных преференций — но только если будут уверены, что их данные не превратятся в оружие против них самих. Персонализация цен, точное предложение, лояльность, снижение стоимости удержания, понимание клиента, кредит с пониженной процентной ставкой — у бизнеса много способов убедить клиента поделиться информацией о себе.
Сегодня любое взаимодействие с личной информацией регулируется двумя Федеральными законами — 152 и 149. Согласно заданной ими модели, для любых манипуляций с данными (получения, обработки, хранения, передачи) у клиента необходимо получить согласие, а персональными данными считается любая информация, относящаяся к человеку.
Тут сложилась интересная ситуация. С одной стороны, есть 152 Федеральный закон, который защищает персональные данные и требует наличия согласия от лиц, предоставивших данные. Он также предъявляет жесткие требования к процессу обработки данных, к технической инфраструктуре, которая при этом задействована, а также ограничивает цели, с которыми обработка производится. В общем, требований много, и за их нарушение предусмотрена ответственность. С другой стороны, есть 149 Федеральный закон, который регулирует обработку общей информации. Анонимную информацию можно использовать, обрабатывать и публиковать свободно за исключением некоторых категорий. Ответственность за нарушения в обработке данных тут отсутствует.
Обезличенные данные: два подхода, две проблемы
Каждый «обработчик» обезличенных данных куда-то передает полученную общую информацию. Можно ли оттуда вытащить персональные данные? Считается, что нет. Однако случаи, когда из опубликованной статистики была получена персональная информация, происходят регулярно. Обычно это сопровождается громкими скандалами и судебными разбирательствами.
Так существуют ли такие способы обезличивания персональных данных, после которых восстановить их будет невозможно? И как определить степень защищенности полученной информации?
Сегодня нет строгих регламентированных правил для технологии обезличивания данных. И нельзя создать какой-то универсальный алгоритм обезличивания — это делается отдельно в каждой конкретной задаче.
Кроме того, порой трудно определить степень защищенности полученных обезличенных данных. По факту, все данные можно восстановить, но чем сложнее это сделать, чем больше труда, времени и дополнительных ресурсов (например, таблицы идентификаторов и т. п.) для этого потребуется, тем выше считается уровень защищенности. То есть подход применяется такой же, как в шифровании, и никакого стандарта не существует.
С другой стороны, даже обезличенные данные должны сохранять всю необходимую информативность.
То есть при обработке необходимо снизить риск утери той части информации, которая придавала данным ценность. Если ли способ обезличить данные, но при этом сохранить их валидность?
И как определить, какая информация ценная, а какая — нет? Чтобы принять решение о том, что можно обезличивать, а что нельзя, нужно понять, какие критерии имеют ценность. Так как аналитики много, эта задача достаточно сложная и будет решаться по-разному в каждом конкретном случае: в зависимости от самой задачи, ширины выборки, каких-то заданных условий и требований… То есть и здесь нет единого универсального решения или правила.
Медицинские данные
Медицина — это область, где анализ данных о пациентах особенно важен. В соответствии с концепцией доказательной медицины методологическое качество исследования определяется рисками систематических ошибок и рисками некорректности анализа данных. Минимизация этих рисков повышает достоверность исследования. И если данные изначально некорректны, то мы получим заведомо неверные результаты.
Но здесь мы сталкиваемся с двумя проблемами: обрабатываемые данных должны быть в необходимой степени информативными, и в то же время их обезличенность должна соответствовать требованиям безопасности.
Сейчас в России не существует какой-то единой методики по формированию таких данных, а любая их обработка регламентируется все теми же 152 и 149 ФЗ.
Необходимо создание независимых методик формирования данных, и сейчас, с учетом задач по цифровизации здравоохранения, такой проект представляется важным и реалистичным.
Для медицинских данных есть необходимость формирования новой практики обработки персональных данных с тем же приемлемым для государства уровнем риска, что и в уже существующих законах, но новая практика должна занять место посередине между ними. То есть, цели обработки обезличенных данных в пределах установленных рисков должны определяться свободно, а обработчик мог бы управлять рисками, связанными с обработкой обезличенных данных.
В общемировой практике уже были примеры создания подобных методик. Самым известным и успешным является стандарт OMOP, позволяющий работать с данными из разных источников.
OMOP (Observational Medical Outcomes Partnership) было государственно-частным партнерством, созданным для информирования о надлежащем использовании обсервационных медицинских баз данных для изучения эффективности медицинских препаратов. Созданный стандарт OMOP CDM и связанные с ним программные средства OHDSI для визуализации и анализа клинических данных упрощают разработку и выполнение анализа на основе стандартизированных данных наблюдения на уровне пациентов.
Результаты исследований OMOP широко публиковались и представлялись на научных конференциях. В течение пятилетнего проекта благодаря сотрудничеству представителей промышленности, правительства и ученых, OMOP успешно достигло своих целей:
- провести методологическое исследование для эмпирической оценки эффективности различных аналитических методов с точки зрения их способности идентифицировать истинные ассоциации и избежать ложных результатов;
- разработать инструменты и возможности для преобразования, характеристики и анализа разрозненных источников данных по всему спектру оказания медицинской помощи;
- создать общий ресурс, чтобы в дальнейшем исследовательское сообщество могло использовать полученные результаты.
Сегодня дело OMOP продолжает коллаборация OHDSI (Observational Health Data Sciences and Informatics, произносится как «Одиссея»). Представители организации работают в 74 странах, исследуя уникальные персональные данные 810 млн. человек по всему миру.
Вопрос создания подобного стандарта сегодня очень актуален в России. Конечно, его созданием также должна заниматься некая коллаборации — неформальное объединение компаний-представителей из различных сфер: медицинских, страховых, фармацевтических, а также представителей государства.
Результатом работы такого коммьюнити видится некое решение по принципу Open Source — стандарт с открытым кодом, который можно будет дорабатывать под свои задачи.
Конечно, уже сейчас российские компании обрабатывают обезличенные медицинские данные и предлагают всевозможные решения на их основе.