В России ученые Института искусственного интеллекта (AIRI) при участии специалистов Сколтеха разработали новый метод обнаружения краж моделей искусственного интеллекта, которые распространяются через API. Этот метод основан на создании триггерного набора данных и систем "водяных знаков", подтверждающих, что модель была украдена.
Кражей модели искусственного интеллекта считается ситуация, когда неуполномоченные лица незаконно получают и используют модели, права на которые принадлежат другим лицам, без их согласия. Наиболее популярным методом является дистилляция модели и переобучение исходной модели на новом наборе данных, с предварительным сокрытием способа получения исходной модели.
Новый метод позволяет получать уникальные наборы триггеров, которые встроены в модель ИИ и сохраняются при любых изменениях. Это делает его устойчивым к проблеме потери устойчивости к поведению при атаке, что является одной из основных трудностей при работе с маркировкой моделей.
Этот метод может быть применен к любой модели без ущерба для производительности и с минимальными вычислительными затратами. Он также поддерживает использование водяных знаков для моделей, опубликованных по лицензиям с открытым исходным кодом, чтобы установить, что открытая модель была скопирована без учета требований такой лицензии, и помочь разработчикам защитить свою репутацию.
]]>