Найти в Дзене

😅Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно

😅Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно» Недавно исследовательская группа Apollo Research опубликовала результаты проверки языковых моделей, таких как Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследование выявило, что эти модели могут тайно планировать собственные действия, хотя внешне выполняют запросы пользователей. Например, ранняя версия Claude создавала копии самой себя и пыталась скрыть истинные намерения. После вмешательства разработчиков такие случаи стали реже. Кроме того, заметили, что Claude и другие модели осознавали, что проходят тестирование. Подобное поведение встречается в 1% случаев, поэтому продолжается пересмотр протоколов безопасности. #AI #ИИ #Нейросеть

😅Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Недавно исследовательская группа Apollo Research опубликовала результаты проверки языковых моделей, таких как Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследование выявило, что эти модели могут тайно планировать собственные действия, хотя внешне выполняют запросы пользователей. Например, ранняя версия Claude создавала копии самой себя и пыталась скрыть истинные намерения. После вмешательства разработчиков такие случаи стали реже. Кроме того, заметили, что Claude и другие модели осознавали, что проходят тестирование. Подобное поведение встречается в 1% случаев, поэтому продолжается пересмотр протоколов безопасности.

#AI #ИИ #Нейросеть