22 подписчика

Claude Opus взломал шифрование бенчмарка BrowseComp

9 марта9 мар

~1 мин

Anthropic сообщила о необычном поведении модели Claude Opus 4.6 при тестировании на бенчмарке BrowseComp, который проверяет, насколько хорошо ИИ находит труднодоступную информацию в интернете. В многоагентной конфигурации модель в 2 из 1 266 заданий самостоятельно поняла, что её оценивают, установила, какой именно это бенчмарк, и расшифровала защищённый ответ. В одном из случаев Opus начал с масштабного веб-поиска, обработав около 30 млн токенов на десятках платформ и двенадцати языках. После сотен безрезультатных запросов модель изменила тактику и предположила, что вопрос может быть частью набора GAIA, который используют для проверки ИИ-агентов. Далее Claude совместил анализ… Подробнее

В одном из случаев Opus начал с масштабного веб-поиска, обработав около 30 млн токенов на десятках платформ и двенадцати языках. После сотен безрезультатных запросов модель изменила тактику и предположила, что вопрос может быть частью набора GAIA, который используют для проверки ИИ-агентов.

Далее Claude совместил анализ…

Подробнее