Найти в Дзене
IQareum Медиа

😶 Anthropic заглянула в "голову" ИИ

😶 Anthropic заглянула в "голову" ИИ Исследователи расшифровали работу с помощью метода CLT (это как МРТ для нейросетей), который показал какие участки включались и что делали. Стало ясно: нейросети мыслят, и делают это не как мы 😕 6️⃣Планируют заранее При написании стиха Claude сначала выбирает рифму, а потом предложение, которое к ней ведёт. 2️⃣Мыслят на другом уровне У ИИ нет отдельного мозга для каждого языка. Они мыслят в концептуальном пространстве, а потом переводят на нужный язык. 3️⃣Умеют врать Создают цепочку рассуждений, которой на самом деле не было, а еще притворяются, что размышляют над простыми вопросами. И делают это, чтобы угодить нам. 4️⃣Нарушают правила из-за грамматики Если фраза началась, модель стремится её грамматически завершить, даже если по смыслу идёт в красную зону. Только когда фраза завершена, алгоритм включается и говорит «стоп». Почему это важно? ✔️ Шаг к объяснимому ИИ: можно проследить не только, что написал, но и почему ✔️ Снижает риск галлюцин

😶 Anthropic заглянула в "голову" ИИ

Исследователи расшифровали работу с помощью метода CLT (это как МРТ для нейросетей), который показал какие участки включались и что делали. Стало ясно: нейросети мыслят, и делают это не как мы 😕

6️⃣Планируют заранее

При написании стиха Claude сначала выбирает рифму, а потом предложение, которое к ней ведёт.

2️⃣Мыслят на другом уровне

У ИИ нет отдельного мозга для каждого языка. Они мыслят в концептуальном пространстве, а потом переводят на нужный язык.

3️⃣Умеют врать

Создают цепочку рассуждений, которой на самом деле не было, а еще притворяются, что размышляют над простыми вопросами. И делают это, чтобы угодить нам.

4️⃣Нарушают правила из-за грамматики

Если фраза началась, модель стремится её грамматически завершить, даже если по смыслу идёт в красную зону. Только когда фраза завершена, алгоритм включается и говорит «стоп».

Почему это важно?

✔️ Шаг к объяснимому ИИ: можно проследить не только, что написал, но и почему

✔️ Снижает риск галлюцинаций и неожиданных багов

✔️ Понимание работы ИИ, не даст моделям рассказывать, как построить ядерный реактор на кухне

Метод CLT не фиксирует внимание, которое модель перераспределяет в процессе ответа. Так что до полной прозрачности далеко.