Lancelot сочетает в себе шифрование и надежную агрегацию для противостояния "отравляющим" атакам
Федеративное обучение — это метод машинного обучения, который позволяет нескольким людям, называемым «клиентами», совместно обучать модель, не обмениваясь необработанными обучающими данными друг с другом. Такой подход к «совместному обучению» может быть особенно выгоден для обучения моделей машинного обучения, предназначенных для выполнения задач в финансовых и медицинских учреждениях без доступа к персональным данным людей.
Несмотря на их потенциал, прошлые исследования показали уязвимость методов федеративного обучения к так называемым отравлениям. Эти атаки заключаются в отправке поврежденных данных злоумышленниками, что отрицательно сказывается на производительности модели.
Один из предложенных подходов к минимизации влияния поврежденных данных или обновлений на производительность модели известен как византийское устойчивое федеративное обучение. Этот подход основан на математических стратегиях, чтобы гарантировать игнорирование недостоверных данных, но при этом не предотвращает потенциальные утечки конфиденциальной информации, запоминаемой нейронными сетями, которая может быть восстановлена злоумышленниками.
Исследователи из Китайского университета Гонконга, Городского университета Гонконга и других институтов недавно разработали эффективную византийскую надежную систему федеративного обучения, которая также включает в себя передовые криптографические методы, тем самым сводя к минимуму риск как отравлений, так и утечек персональных данных. Эта новая система, получившая название «Ланселот», была представлена в статье, опубликованной в журнале Nature Machine Intelligence.
«Мы решили решить проблему, которую мы постоянно наблюдали в регулируемых областях: федеративное обучение может противостоять злонамеренным участникам с помощью надежной агрегации, а полностью гомоморфное шифрование может держать обновления в секрете, но делать и то, и другое одновременно было слишком медленно для использования», — сказал Сиян Цзян, первый автор статьи. Наша цель состояла в том, чтобы создать систему, которая остается надежной, даже когда некоторые клиенты пытаются отравить модель, хранит каждое обновление в зашифрованном виде от начала до конца и достаточно быстра для повседневной работы».
Lancelot, система, разработанная Цзяном и его коллегами, хранит локальные обновления, внесенные в модель, в зашифрованном виде, а также выбирает надежные клиентские обновления, не раскрывая их выбор другим. Кроме того, система требует меньше вычислений, выполняя только два более интеллектуальных криптографических шага и гарантируя, что более сложные математические операции выполняются графическими процессорами.
«Короче говоря, Lancelot устраняет пробел в конфиденциальности и безопасности в федеративном обучении, значительно сокращая время обучения», — пояснил Цзян. «У Ланселота есть три роли, которые работают вместе. Клиенты обучаются на собственных данных и отправляют только зашифрованные обновления моделей. Центральный сервер, который следует правилам (честно), но может быть любопытным, работает непосредственно с зашифрованными данными, чтобы измерить, насколько похожи обновления, и объединить их».
В системе команды секретный ключ, используемый для шифрования и расшифровки данных, хранится в отдельном и доверенном центре генерации ключей. Этот центр расшифровывает только ту информацию, которая необходима для ранжирования клиентов на основе их надежности, а затем возвращает зашифрованную «маску» (т. е. скрытый список клиентов, которые должны быть включены в обучение модели). В конечном итоге это позволяет серверу агрегировать достоверные данные для обучения модели, не узнавая, какие клиенты были выбраны.
«Основная идея заключается в этой зашифрованной сортировке на основе маски: вместо того, чтобы проводить медленные сравнения зашифрованных данных, доверенный центр выполняет сортировку и отправляет обратно только скрытый выбор», — сказал Цзян.
Чтобы сделать систему быстрой, мы используем два простых, но мощных криптографических метода. Во-первых, мы применяем отложенную линеаризацию, чтобы уменьшить количество релинеаризаций и тем самым снизить вычислительные издержки. Во-вторых, динамические подъемные группы и распараллеливание повторяющихся операций для повышения их эффективности. Мы также перекладываем тяжелые зашифрованные операции, такие как полиномиальное умножение, на графические процессоры для крупномасштабного параллелизма».
Уникальная конструкция, предложенная этими исследователями, в конечном итоге гарантирует, что каждое обновление, представленное клиентами, останется конфиденциальным на протяжении всего процесса обучения. Было обнаружено, что это защищает их систему от вредоносных или ошибочных клиентов, а также значительно сокращает время, необходимое для обучения моделей.
«Наша работа позволяет создать первую практическую систему, которая действительно сочетает в себе надежное византийское федеративное обучение (BRFL) с полностью гомоморфным шифрованием», — сказал Цзян. «Вместо того, чтобы проводить множество медленных сравнений зашифрованных данных, мы используем зашифрованную сортировку на основе масок: доверенная сторона ранжирует обновления клиента и возвращает только зашифрованный список выбора, поэтому сервер может объединять нужные обновления, даже не видя, кто был выбран. Две простые идеи делают это эффективным на практике: ленивая релинеаризация откладывает дорогостоящий криптографический шаг до конца, а динамическое поднятие групп и распараллеливание повторяющихся операций; Вместе с выполнением тяжелых зашифрованных математических расчетов на графических процессорах эти изменения сокращают время обработки и перемещают данные через память гораздо быстрее».
В будущем византийская надежная система федеративного обучения, разработанная этой исследовательской группой, может быть использована для обучения моделей для различных приложений. В частности, это может помочь в разработке инструментов искусственного интеллекта, которые могут повысить эффективность операций в больницах, банках и различных других организациях, хранящих конфиденциальную информацию. Цзян и его коллеги в настоящее время работают над дальнейшим улучшением Lancelot, который все еще находится в пилотной версии, чтобы его можно было масштабировать и развертывать в реальных условиях.
«Параллельно мы изучаем пороговые и многоключевые CKKS для укрепления модели доверия без увеличения пропускной способности или задержек, сохраняя при этом практичность федеративного обучения в Византии», — добавил Цзян. «Мы также углубляем комбинацию с дифференциальной конфиденциальностью и добавляем асинхронную и кластерную агрегацию, чтобы система корректно справлялась с очень разнородными клиентами и нестабильными сетями».