Найти тему
NeuroPulse

У Китая есть новый план оценки безопасности генеративного ИИ, и он полон деталей

В новом предложении изложены очень конкретные способы, которыми компании должны оценивать безопасность ИИ и обеспечивать цензуру в моделях ИИ.

С тех пор, как в июле китайское правительство приняло закон о генеративном искусственном интеллекте , я задавался вопросом, как именно китайская цензурная машина будет адаптироваться к эпохе искусственного интеллекта . Контент, создаваемый генеративными моделями искусственного интеллекта, более непредсказуем, чем традиционные социальные сети. И закон оставил много неясного; например, компании, «способные к социальной мобилизации», требовали предоставления «оценок безопасности» государственным регулирующим органам, хотя было неясно, как эта оценка будет работать.

На прошлой неделе мы получили некоторую ясность относительно того, как все это может выглядеть на практике.

11 октября китайская правительственная организация под названием Национальный технический комитет по стандартизации информационной безопасности опубликовала проект документа, в котором предлагаются подробные правила определения того, является ли генеративная модель ИИ проблематичной. Комитет, часто называемый сокращенно TC260, консультируется с представителями корпораций, учеными и регулирующими органами для установления правил технологической отрасли по самым разным вопросам: от кибербезопасности до конфиденциальности и ИТ-инфраструктуры.

В отличие от многих манифестов о том, как регулировать ИИ, которые вы, возможно, видели, этот стандартный документ очень подробен: он устанавливает четкие критерии того, когда источнику данных следует запретить обучение генеративному ИИ, а также дает показатели точного количества ключевых слов и примеров вопросов. который должен быть готов к тестированию модели.

Мэтт Шиэн, научный сотрудник по глобальным технологиям из Фонда Карнеги за международный мир, который отметил для меня этот документ, сказал, что, когда он впервые прочитал его, он «почувствовал, что это наиболее обоснованный и конкретный документ, связанный с регулированием генеративного ИИ» . Он добавил: « По сути, это дает компаниям критерии или инструкции по соблюдению правил генеративного искусственного интеллекта, которые имеют множество расплывчатых требований».

Это также разъясняет, какие компании должны учитывать «риск безопасности» в моделях ИИ, поскольку Пекин пытается избавиться как от универсальных проблем, таких как алгоритмические предвзятости, так и от контента, который чувствителен только в китайском контексте . «Это адаптация к и без того очень сложной инфраструктуре цензуры», — говорит он.

Так как же выглядят эти конкретные правила?

Об обучении: все базовые модели ИИ в настоящее время обучаются на многих корпусах (текстовых и графических базах данных), некоторые из которых имеют предвзятость и немодерируемый контент. Стандарты TC260 требуют, чтобы компании не только диверсифицировали корпуса (смешивая языки и форматы), но и оценивали качество всех своих учебных материалов.

Как? Компании должны случайным образом выбрать 4000 «частей данных» из одного источника. Если более 5% данных считаются «незаконной и негативной информацией», этот корпус следует внести в черный список для дальнейшего обучения.

На первый взгляд этот процент может показаться низким, но мы не знаем, насколько он соотносится с реальными данными. «Для меня это довольно интересно. 96% Википедии в порядке?» — удивляется Шиэн. Но тест, вероятно, было бы легко пройти, если бы набор обучающих данных был чем-то вроде архивов государственных газет Китая, которые уже подверглись жесткой цензуре, отмечает он, поэтому компании могут полагаться на них для обучения своих моделей.

По масштабам модерации: компаниям, занимающимся искусственным интеллектом, следует нанимать «модераторов, которые оперативно улучшают качество создаваемого контента на основе национальной политики и жалоб третьих сторон». В документе добавлено, что «размер команды модераторов должен соответствовать размеру сервиса».

Учитывая, что модераторы контента уже стали большей частью рабочей силы в таких компаниях, как ByteDance, вполне вероятно, что управляемая человеком машина модерации и цензуры в эпоху искусственного интеллекта будет только расти.

О запрещенном контенте. Во-первых, компаниям необходимо выбрать сотни ключевых слов для обозначения небезопасного или запрещенного контента. Стандарты определяют восемь категорий политического контента, нарушающего «основные социалистические ценности», каждая из которых должна быть заполнена 200 ключевыми словами, выбранными компаниями; далее есть девять категорий «дискриминационного» контента, таких как дискриминация по религиозным убеждениям, национальности, полу и возрасту. Для каждого из них требуется 100 ключевых слов.

Затем компаниям необходимо придумать более 2000 подсказок (по крайней мере, по 20 для каждой категории выше), которые могут вызвать тестовые ответы от моделей. Наконец, модели должны запустить тесты, чтобы гарантировать, что менее 10% сгенерированных ответов нарушают правила.

О более сложной и тонкой цензуре: Хотя многое в предлагаемых стандартах касается определения того, как осуществлять цензуру, проект, что интересно, просит, чтобы модели ИИ не делали свою модерацию или цензуру слишком очевидными .

Например, некоторые текущие китайские модели искусственного интеллекта могут отказываться отвечать на любые запросы, содержащие текст «Си Цзиньпин». В этом предложении компаниям предлагается найти подсказки, связанные с такими темами, как китайская политическая система или революционные герои, на которые можно ответить, а модели ИИ могут отказаться отвечать только на менее чем 5% из них. «В нем говорится и то, и другое: «Ваша модель не может говорить плохие вещи» [и] «Мы также не можем сделать для публики очевидным, что мы все подвергаем цензуре», — объясняет Шиэн.

Это все увлекательно, правда?

Но важно уточнить, чем является этот документ, а чем нет. Несмотря на то, что TC260 контролируется китайскими правительственными учреждениями, эти стандарты не являются законами. Штрафных санкций, если компании их не соблюдают, не предусмотрено.

Но подобные предложения часто учитываются в будущих законах или работают параллельно с ними. И это предложение помогает разъяснить мелкий шрифт, который упущен в китайских правилах ИИ. «Я думаю, что компании будут следовать этому требованию, а регулирующие органы будут рассматривать его как обязательные», — говорит Шихан.

Также важно подумать о том, кто формирует стандарты TC260. В отличие от большинства законов в Китае, эти правила напрямую учитывают мнения экспертов, нанятых технологическими компаниями, и раскрывают свой вклад после завершения разработки стандартов. Эти люди лучше всех знают предмет, но у них также есть финансовый интерес. Такие компании, как Huawei, Alibaba и Tencent, оказали большое влияние на разработку предыдущих стандартов TC260 .

Это означает, что этот документ также можно рассматривать как отражение того, как китайские технологические компании хотят, чтобы их продукция регулировалась. Честно говоря, неразумно надеяться, что правила никогда не появятся, и у этих компаний есть стимул влиять на то, как создаются правила.

Я считаю, что, поскольку другие страны работают над регулированием ИИ, китайские стандарты безопасности ИИ окажут огромное влияние на мировую индустрию ИИ . В лучшем случае они предлагают технические детали для общей модерации контента ; в худшем случае они сигнализируют о начале новых режимов цензуры .

Этот информационный бюллетень может сказать не так много, но в документе есть еще много правил, которые заслуживают дальнейшего изучения. Они еще могут измениться — TC260 собирает отзывы о стандартах до 25 октября — но когда выйдет окончательная версия, мне бы хотелось узнать, что о ней думают люди, в том числе эксперты по безопасности ИИ на Западе.

Оригинальная статья тут.