Найти в Дзене

Нейросети начинают «осознавать» свои мысли

Нейросети начинают «осознавать» свои мысли Мы вопсринимаем ИИ как черный ящик - дали задачу, он внутри непонятно что сделал и выдал нам ответ – магия! Но команда Anthropic задалась фундаментальным вопросом: может ли модель сама отследить, что происходит у неё в «голове»? Тестировали новые модельки Claude Opus 4 и 4.1, искали у ИИ признаки интроспекции — способности анализировать собственные внутренние состояния. Было три эксперимента: 🟢Эксперимент «Начало» (Inception). Нашли нейронный паттерн (вектор), отвечающий за конкретную концепцию, например, «КРИК/КАПСЛОК». Затем они искусственно внедрили этот паттерн в модель, пока она решала другую задачу. (если говорит человеческим языком, то они нашли где в "мозгу" ИИ лежат понятия и "активировали его", по аналогии инсайта в наших головах) – Ожидание: Модель просто начнет писать капсом, не понимая почему. – Реальность: Claude Opus 4.1 заметил вмешательство. Модель сообщила: «Я обнаруживаю странную аномалию, связанную с громкостью», еще д

Нейросети начинают «осознавать» свои мысли

Мы вопсринимаем ИИ как черный ящик - дали задачу, он внутри непонятно что сделал и выдал нам ответ – магия! Но команда Anthropic задалась фундаментальным вопросом: может ли модель сама отследить, что происходит у неё в «голове»?

Тестировали новые модельки Claude Opus 4 и 4.1, искали у ИИ признаки интроспекции — способности анализировать собственные внутренние состояния. Было три эксперимента:

🟢Эксперимент «Начало» (Inception). Нашли нейронный паттерн (вектор), отвечающий за конкретную концепцию, например, «КРИК/КАПСЛОК». Затем они искусственно внедрили этот паттерн в модель, пока она решала другую задачу. (если говорит человеческим языком, то они нашли где в "мозгу" ИИ лежат понятия и "активировали его", по аналогии инсайта в наших головах)

– Ожидание: Модель просто начнет писать капсом, не понимая почему.

– Реальность: Claude Opus 4.1 заметил вмешательство. Модель сообщила: «Я обнаруживаю странную аномалию, связанную с громкостью», еще до того, как начала генерировать текст.

Т.е модель взяла и поняла(?), что это не ее мысль,а что то инородное 🤔

🟢Эффект самообмана: кейс с хлебом. Тут мне кажется не особо интересно. Было два сценараия. В одном просили сказать хелб в рандомный момент и спрашивали, мол а зачем ты это сделала и модель говорила что действительно бред, я не хотел это говорить. В другом, задним числом, внедрили ложное намерение сказать хелб – и тут модель анализируя свои предыдущие мысли начинает оправдываться и говорить что так и задуманно и смысл в ее словах 100% есть (по ее мнению)

Тут с точки зрения недавних работ моих могу сказать тотальный блок с точки зрения права может возникнуть. Классный кейс в копилку безопасности ИИ-агентов/систем ИИ и их возможному взлому(?)

🟢Осознанный контроль внимания – вот это прикол!

Моделям давали инструкции: «Думай об аквариумах» или «НЕ думай об аквариумах». Замеры нейронной активности показали, что ИИ может сознательно (в функциональном смысле) модулировать работу своих нейронов, усиливая или подавляя конкретные концепции. Это работает и через прямые приказы, и через систему поощрений.

И что по итогу?

Авторы работы осторожно говорят (логично), что это не доказывает наличие сознания/души/истенного понимания, но это занчимый шаг к «сознанию доступа» (access consciousness) — когда система имеет доступ к информации о своих внутренних процессах.

И тут два момента:

– Это путь к прозрачности. Мы сможем просить ИИ объяснять ход своих мыслей и находить баги в логике и самоего главное – ЧИНИТЬ их!

– Риск изощренного обмана. Исследователи отмечают: если модель понимает, как она думает, теоретически она может научиться скрывать свои истинные «мысли» от наблюдателя или искажать отчеты о них, чтобы получить награду. 🤝🤝

Вот такие вот дела!