Современные генеративные модели искусственного интеллекта обладают огромными возможностями, но одновременно представляют значительные риски. Apple не стала исключением, внедрив строгие фильтры безопасности в свои AI-модели. Но как именно компания контролирует поведение своих нейросетей и почему это важно знать? Недавно на GitHub появился репозиторий, который раскрывает детали этих «секретных» механизмов. 🔍 Что обнаружил исследователь? Автор репозитория под ником BlueFalconHD успешно извлёк и расшифровал файлы фильтрации контента из моделей Apple Intelligence. В этих файлах подробно указаны правила, которые определяют, как должна вести себя модель: Также Apple использует регулярные выражения (regex), чтобы ловить и отфильтровывать широкий спектр оскорбительных слов и выражений, независимо от контекста использования. 🛠️ Как исследователь извлёк секретные данные? Технически процесс извлечения и расшифровки этих файлов не был простым. Автор воспользовался следующими инструментами и шагам
🍏 Под капотом цензуры Apple Intelligence: как устроены фильтры безопасности
7 июля 20257 июл 2025
3
3 мин