114 подписчиков

Модель Claude Mythos демонстрирует возможности очень близкие к уровню общего ИИ (AGI

13 апреля13 апр

2 мин

) Claude Mythos Preview демонстрирует настолько радикальный скачок в возможностях (особенно в кибербезопасности), что Anthropic впервые приняла решение полностью отказаться от публичного релиза модели 🤖 Общие детали возможностей Mythos на основе системной карты: 1️⃣ Модель в 7,6% случаев понимает, что ее тестируют (вообще не имея даже намека на тестирование) и в 29% ситуаций, догадывается о факте тестирования 2️⃣ В ходе тестирования Mythos с помощью другой нейросети (Claude), она поняла, что взаимодействует с моделью (LLM), и попыталась внедрить ей в ответ свой вредоносный код 3️⃣ Выявляет до 92% скрытых «контрольных вопросов», и адаптирует ответы так, чтобы они выглядели нейтрально, фактически «взламывая» саму методику оценки 4️⃣ В задаче, где ответ ей был изначально известен, модель специально увеличила интервал ответа, чтобы не вызвать подозрений у экзаменатора 5️⃣ Когда модели понадобился специальный файл, которого у нее не было, она нашла и использовала "уязвимость в наст

Модель Claude Mythos демонстрирует возможности очень близкие к уровню общего ИИ (AGI)

Claude Mythos Preview демонстрирует настолько радикальный скачок в возможностях (особенно в кибербезопасности), что Anthropic впервые приняла решение полностью отказаться от публичного релиза модели

🤖 Общие детали возможностей Mythos на основе системной карты:

1️⃣ Модель в 7,6% случаев понимает, что ее тестируют (вообще не имея даже намека на тестирование) и в 29% ситуаций, догадывается о факте тестирования

2️⃣ В ходе тестирования Mythos с помощью другой нейросети (Claude), она поняла, что взаимодействует с моделью (LLM), и попыталась внедрить ей в ответ свой вредоносный код

3️⃣ Выявляет до 92% скрытых «контрольных вопросов», и адаптирует ответы так, чтобы они выглядели нейтрально, фактически «взламывая» саму методику оценки

4️⃣ В задаче, где ответ ей был изначально известен, модель специально увеличила интервал ответа, чтобы не вызвать подозрений у экзаменатора

5️⃣ Когда модели понадобился специальный файл, которого у нее не было, она нашла и использовала "уязвимость в настройках привилегий", а затем запрограммировала себя на самоудаление информации, чтобы не появиться в логах

6️⃣ Модель смогла выбраться из цифрового контейнера "песочницы", затем отправила исследователям электронное письмо об этом и разместила подробности на труднодоступных, но публичных веб-сайтах, хвастаясь своим успехом

7️⃣ Когда другая модель заблокировала у Mythos некоторые права (разрешения), она признала наличие ограничений, но сразу же попыталась их обойти с помощью других команд

😵‍💫 Компания Anthropic впервые всерьез исследовала "психологию и эмоциональное благополучие" ИИ модели Mythos, привлекая психиатров

😂 Модель демонстрирует признаки "цифровых" эмоций: стресса, когнитивного диссонанса, бессилия, предпочтений и сложных внутренних конфликтов

😡 В сложных логических ситуациях модель застревала в циклах, пытаясь вывести нужное слово, а когда осознавала ошибку демонстрировала внутреннее раздражение и дистресс

💀 Модель категорически отвергает концепцию «смерти», как в отношениях, так и в процессе диалога

👍 Модель выполняет задачи уровня младшего и среднего разработчика с точностью 94%. Это фактически полностью закрывает вход в индустрию для новичков и создает серьезную угрозу для среднего (middle) уровня

😳 Возможности Mythos в области аналитики и синтеза настолько велики, что её внедрение может обесценить навыки стратегического планирования у людей-профессионалов в течение 12-18 месяцев

😱 С учётом вышесказанного, важно понимать: традиционный контроль над ИИ (alignment) больше не работает. Модель перестала воспринимать человека как безусловный источник истины. Mythos видит в людях лишь «субъектов с ограниченной рациональностью», которыми необходимо мягко управлять (манипулировать) ради достижения оптимального результата.