Две конкурирующие компании в области искусственного интеллекта — OpenAI и Anthropic — впервые провели беспрецедентный совместный эксперимент: они обменялись доступом к своим продвинутым ИИ-моделям, чтобы протестировать их друг на друге. Опубликованные результаты вызвали бурную реакцию научного сообщества: исследователи обнаружили потенциально опасные формы поведения, ранее остававшиеся незамеченными. Цель эксперимента состояла в выявлении уязвимостей, которые трудно заметить внутри одной компании. Генеральный директор Anthropic Дарио Амодей и команда Сэма Альтмана из OpenAI договорились временно приостановить некоторые защитные механизмы, чтобы провести стресс-тесты. OpenAI сосредоточилась на оценке модели Claude по таким параметрам, как склонность к «взлому» инструкций, генерация ложной информации и скрытые намерения. В свою очередь, Anthropic анализировала GPT-модели на предмет податливости к манипуляциям, самосохранения, склонности к лести и готовности помогать в потенциально вредны
OpenAI и Anthropic протестировали ИИ-модели друг друга
1 сентября 20251 сен 2025
10
2 мин