Современные языковые модели, несмотря на прогресс в их изучении, продолжают оставаться «чёрными ящиками» даже для своих разработчиков. Специалисты шаг за шагом выявляют обособленные элементы их работы. Однако сохраняется фундаментальный вопрос: доступно ли самим моделям понимание этих внутренних репрезентаций? Владеют ли они возможностью вербализовать собственную когнитивную динамику? Опыты по искусственной имплантации смыслов Основной тезис новой научной работы от Anthropic формулируется достаточно пессимистично: новейшие языковые модели, при всей их архитектурной изощрённости, демонстрируют «крайне низкую достоверность» при описании процессов, происходящих в них. Слабая развитость интроспекции — то есть умения анализировать внутреннее состояние — типичная характеристика. Для оценки способности LLM к саморефлексии научная группа Anthropic реализовала цикл тестов. В качестве инструмента для обнаружения зачатков «самоосознания» у машинного интеллекта был взят на вооружение приём «и