Найти в Дзене

Остаются ли нейросети загадкой для самих себя?

Современные языковые модели, несмотря на прогресс в их изучении, продолжают оставаться «чёрными ящиками» даже для своих разработчиков. Специалисты шаг за шагом выявляют обособленные элементы их работы. Однако сохраняется фундаментальный вопрос: доступно ли самим моделям понимание этих внутренних репрезентаций? Владеют ли они возможностью вербализовать собственную когнитивную динамику? Опыты по искусственной имплантации смыслов Основной тезис новой научной работы от Anthropic формулируется достаточно пессимистично: новейшие языковые модели, при всей их архитектурной изощрённости, демонстрируют «крайне низкую достоверность» при описании процессов, происходящих в них. Слабая развитость интроспекции — то есть умения анализировать внутреннее состояние — типичная характеристика. Для оценки способности LLM к саморефлексии научная группа Anthropic реализовала цикл тестов. В качестве инструмента для обнаружения зачатков «самоосознания» у машинного интеллекта был взят на вооружение приём «и
Оглавление

Современные языковые модели, несмотря на прогресс в их изучении, продолжают оставаться «чёрными ящиками» даже для своих разработчиков. Специалисты шаг за шагом выявляют обособленные элементы их работы. Однако сохраняется фундаментальный вопрос: доступно ли самим моделям понимание этих внутренних репрезентаций? Владеют ли они возможностью вербализовать собственную когнитивную динамику?

Опыты по искусственной имплантации смыслов

Основной тезис новой научной работы от Anthropic формулируется достаточно пессимистично: новейшие языковые модели, при всей их архитектурной изощрённости, демонстрируют «крайне низкую достоверность» при описании процессов, происходящих в них. Слабая развитость интроспекции — то есть умения анализировать внутреннее состояние — типичная характеристика.

-2

Для оценки способности LLM к саморефлексии научная группа Anthropic реализовала цикл тестов. В качестве инструмента для обнаружения зачатков «самоосознания» у машинного интеллекта был взят на вооружение приём «имплантации концепта». Его суть заключается в сопоставлении реакций искусственных нейронов модели на различные входные сигналы — допустим, на идентичную фразу, набранную в нижнем и верхнем регистре. Расхождение между этими двумя состояниями формализуется в виде математического направленного отрезка (вектора), который символически представляет конкретную идею — ту же «концепцию громкого звука». Затем данный вектор целенаправленно усиливается внутри функционирующей модели, фактически «внедряя» в её мыслительный поток заранее заданную семантическую единицу, после чего отслеживается, сможет ли система детектировать это внешнее влияние.

Феномен непредсказуемости и хрупкости

Итоги эксперимента оказались неоднозначными. С одной стороны, в ряде ситуаций модели действительно проявляли элементы рефлексии. Так, после активации вектора, ассоциированного с прописными буквами, ИИ мог сообщить о восприятии, относящемся к лексемам «НАГЛО» или «ОРЁТ», хотя в исходном промпте эти слова отсутствовали.

-3

С другой стороны, и это является центральным открытием, выявленная компетенция оказалась исключительно неустойчивой и капризной. Наиболее совершенные из проверенных моделей корректно идентифицировали имплантированный концепт только в около 20% эпизодов. Даже при наиболее благоприятной формулировке запроса уровень успеха не превышал 50%. Результат жёстко зависел от технических аспектов: если «концепт» инжектировался не на той стадии обработки данных, все следы «самоосознания» тут же исчезали. В параллельных тестах, где от модели требовалось аргументировать или защитить свой вывод, показатели также варьировались от сессии к сессии без какой-либо логической последовательности.

Заключительная оценка

Следовательно, авторы исследования делают взвешенный, но принципиальный вывод: у нынешнего поколения языковых моделей можно констатировать наличие определённой «функциональной интроспективной информированности». При этом они сразу оговаривают, что данное свойство слишком непостоянно, чтобы считаться надёжным, и, по всей видимости, коренится в механистических принципах, не имеющих аналогов с человеческим сознанием. Первостепенной задачей остаётся дешифровка точного алгоритма, лежащего в основе этих спорадических всплесков самоанализа. Учёные выдвигают гипотезу, что в ходе обучения внутри моделей могли стихийно сформироваться примитивные «контуры проверки внутренней непротиворечивости», однако их роль ограничена и узконаправленна.

Подводя итог, несмотря на то, что эксперимент зарегистрировал первые неуверенные признаки рефлексивной функции у ИИ, он однозначно указывает: до содержательного и стабильного «самопонимания» искусственным нейросетям предстоит пройти огромную дистанцию. Дальнейшее движение в этой сфере будет всецело обусловлено тем, получится ли раскрыть глубинные механизмы, генерирующие эти нестабильные проявления.