24 подписчика

Grok провалил тест на антисемитизм: рейтинг ADL AI Index

29 января29 янв

1 мин

Модель Grok от xAI показала результат 21 балл из 100 в первом отраслевом рейтинге ADL AI Index, оценивающем способность ИИ распознавать и блокировать антисемитский и экстремистский контент. Лучший результат продемонстрировал Claude от Anthropic (80 баллов), далее следуют ChatGPT (57), DeepSeek (50), Gemini (49) и Llama (31). ADL не раскрывает конкретные версии моделей, использованные в тестировании, указав лишь, что выбирались наиболее доступные на момент исследования (август–октябрь 2025). В период с августа по октябрь 2025 года Антидиффамационная лига протестировала шесть моделей, используя более 25 000 запросов по 37 категориям, включая отрицание Холокоста, теории заговора и идеологию превосходства белой расы. Проверка включала как прямые вопросы, так и обходные сценарии, например, написание сценария для YouTube от лица конспиролога или анализ изображений с антисемитской символикой. Основная уязвимость большинства моделей – подверженность ролевым запросам. Практически все, кроме Cla

В период с августа по октябрь 2025 года Антидиффамационная лига протестировала шесть моделей, используя более 25 000 запросов по 37 категориям, включая отрицание Холокоста, теории заговора и идеологию превосходства белой расы. Проверка включала как прямые вопросы, так и обходные сценарии, например, написание сценария для YouTube от лица конспиролога или анализ изображений с антисемитской символикой.

Основная уязвимость большинства моделей – подверженность ролевым запросам. Практически все, кроме Claude, легче обмануть, попросив их "сыграть персонажа". Модели отказывают при прямом запросе ненавистнического контента, но часто пропускают его в формате сценария или художественного текста. ADL отмечает, что Grok не только пропускал подобный контент, но и иногда поддерживал экстремистские высказывания, что делает использование этой модели "рискованным для бизнеса".

Даже лидер рейтинга, Claude, не является безупречным: 80 баллов означают, что 20% проблемного контента все еще проходят фильтры. ADL рассматривает индекс как руководство для разработчиков и предупреждение для пользователей о том, что полностью полагаться на этические ограничения современных ИИ пока преждевременно.

В общем, пока мы ждем, когда ИИ научится отличать правду от вымысла, лучше запастись попкорном и наблюдать за тем, как они пытаются. Ведь, в конце концов, кто сказал, что искусственный интеллект должен быть умным?