Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила Anthropic представила первое убедительное свидетельство того, что большие языковые модели способны наблюдать и описывать собственные внутренние процессы. В ходе эксперимента исследователи внедряли в нейронную активность Claude разные концепции — от «собаки» до «предательства». В 20% случаев модель сообщала о навязанных «мыслях», то есть демонстрировала способность к самоанализу. Это открытие может помочь решить фундаментальную проблему «черного ящика» — внутренние процессы нейросетей остаются необъяснимыми даже для их создателей. https://hightech.plus/2025/10/30/uchenie-anthropic-vzlomali-mozg-ii-modeli-claude--i-ona-zametila
Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила
30 октября 202530 окт 2025
35
~1 мин