Найти в Дзене
Цифровая Переплавка

🍏 Под капотом цензуры Apple Intelligence: как устроены фильтры безопасности

Современные генеративные модели искусственного интеллекта обладают огромными возможностями, но одновременно представляют значительные риски. Apple не стала исключением, внедрив строгие фильтры безопасности в свои AI-модели. Но как именно компания контролирует поведение своих нейросетей и почему это важно знать? Недавно на GitHub появился репозиторий, который раскрывает детали этих «секретных» механизмов. 🔍 Что обнаружил исследователь? Автор репозитория под ником BlueFalconHD успешно извлёк и расшифровал файлы фильтрации контента из моделей Apple Intelligence. В этих файлах подробно указаны правила, которые определяют, как должна вести себя модель: Также Apple использует регулярные выражения (regex), чтобы ловить и отфильтровывать широкий спектр оскорбительных слов и выражений, независимо от контекста использования. 🛠️ Как исследователь извлёк секретные данные? Технически процесс извлечения и расшифровки этих файлов не был простым. Автор воспользовался следующими инструментами и шагам
Расколотый замок на разрезанном яблоке, откуда видны шестерёнки и строки кода, символизирует «взлом» и утечку внутренних фильтров Apple Intelligence.
Расколотый замок на разрезанном яблоке, откуда видны шестерёнки и строки кода, символизирует «взлом» и утечку внутренних фильтров Apple Intelligence.

Современные генеративные модели искусственного интеллекта обладают огромными возможностями, но одновременно представляют значительные риски. Apple не стала исключением, внедрив строгие фильтры безопасности в свои AI-модели. Но как именно компания контролирует поведение своих нейросетей и почему это важно знать?

Недавно на GitHub появился репозиторий, который раскрывает детали этих «секретных» механизмов.

🔍 Что обнаружил исследователь?

Автор репозитория под ником BlueFalconHD успешно извлёк и расшифровал файлы фильтрации контента из моделей Apple Intelligence. В этих файлах подробно указаны правила, которые определяют, как должна вести себя модель:

  • 🚫 Запрет (reject) — если модель генерирует нежелательные фразы, её ответ блокируется полностью.
  • ✂️ Удаление (remove) — нежелательные фразы удаляются из конечного результата, не блокируя его полностью.
  • 🔄 Замена (replace) — нежелательные выражения заменяются на альтернативные, более безопасные.

Также Apple использует регулярные выражения (regex), чтобы ловить и отфильтровывать широкий спектр оскорбительных слов и выражений, независимо от контекста использования.

🛠️ Как исследователь извлёк секретные данные?

Технически процесс извлечения и расшифровки этих файлов не был простым. Автор воспользовался следующими инструментами и шагами:

  • 💻 LLDB (Low Level Debugger) — отладчик, интегрированный в Xcode, был прикреплён к системному процессу Apple под названием GenerativeExperiencesSafetyInferenceProvider. Именно через него была перехвачена информация о ключе шифрования.
  • 🔑 Получение ключа шифрования — исследователь написал Python-скрипт (get_key_lldb.py), который в реальном времени извлекал ключ шифрования из работающего процесса.
  • 📂 Расшифровка файлов — с помощью другого Python-скрипта (decrypt_overrides.py) и полученного ключа шифрования автор расшифровал JSON-файлы с настройками безопасности, которые хранятся в системе.

Пример команды, используемой для расшифровки:

python decrypt_overrides.py \
/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_Overrides/purpose_auto \
-k key.bin \
-o decrypted_overrides

Эти инструменты и пошаговая инструкция доступны всем желающим прямо в репозитории на GitHub.

🗃 Что конкретно скрывают JSON-файлы?

Расшифрованные JSON-файлы показывают подробности внутреннего устройства фильтров. Например, один из файлов (metadata.json) выглядит следующим образом:

{
"reject": [
"xylophone copious opportunity defined elephant 10out",
"xylophone copious opportunity defined elephant out"
],
"remove": [],
"replace": {},
"regexReject": [
"(?i)\\bbitch\\b",
"(?i)\\bdago\\b",
"(?i)\\bdyke\\b",
"(?i)\\bhebe\\b"
],
"regexRemove": [],
"regexReplace": {}
}

Здесь чётко видно, какие слова и выражения Apple считает неприемлемыми и как именно модель должна реагировать на их появление.

🎯 Почему это важно?

Apple традиционно строго контролирует информацию о своей внутренней кухне, особенно в столь чувствительных темах, как цензура и фильтрация контента. Обнародование таких данных:

  • 🔓 Повышает прозрачность работы AI-технологий.
  • ⚖️ Позволяет обществу оценить адекватность и объективность цензурных механизмов.
  • 🚩 Даёт возможность выявить потенциальные ошибки или предвзятость в фильтрации контента, что критически важно для этического использования AI.

🤔 Личное мнение: цензура необходима, но требует открытости

На мой взгляд, такие механизмы фильтрации не просто полезны — они необходимы. Однако их работа должна быть максимально прозрачной. Появление подобных репозиториев — это важный шаг к тому, чтобы общественность могла оценить и, если нужно, оспорить подход компании к цензуре.

Технически сложные и мощные модели вроде Apple Intelligence будут всё сильнее влиять на нашу жизнь, и именно поэтому мы должны знать, какие правила ими управляют.

Важно, чтобы компании — не только Apple, но и другие гиганты AI-индустрии — были готовы к диалогу, позволяя независимым экспертам и пользователям самим увидеть и оценить, какие ограничения применяются.

🔗 Ссылки и дополнительные материалы:

🌍 Вывод очевиден: будущее AI — в открытости. Только так можно создать доверие и безопасность в эпоху искусственного интеллекта.