Найти в Дзене
НейроБро

Anthropic придумали «AI-микроскоп»: теперь можно заглянуть в мозг ИИ. И это мощно.

Разрабы из Anthropic (тех, кто сделал Claude) выкатили штуку, которая звучит как sci-fi, но уже работает: AI-микроскоп. Это как нейроанализатор, только не для человека, а для ИИ. Он показывает, что именно происходит внутри модели, когда она думает. Не просто «угадывает слово», а реально выстраивает цепочки, делает планы и обрабатывает смыслы. Что выяснили? • «Язык мышления»: Модель сначала активирует не конкретное слово, а абстрактную идею — независимо от языка. Типа «понять суть», а уже потом перевести. Это как если бы ИИ сначала понял, что «горячо» — это про температуру, а уже потом выбрал между “hot”, “жарко” или “caliente”. • Планирование и логика: Claude, когда пишет стихи, заранее подбирает рифмы и строит строки под них. В задачах на логику или математику — использует параллельные цепочки рассуждений. Одна прикидывает примерный ответ, другая — точно считает. Короче, почти как мозг. • Метод как МРТ для ИИ: Они смотрят на «нейроны» внутри сети — фичи, схемы, связи. Вплоть до т

Разрабы из Anthropic (тех, кто сделал Claude) выкатили штуку, которая звучит как sci-fi, но уже работает: AI-микроскоп. Это как нейроанализатор, только не для человека, а для ИИ. Он показывает, что именно происходит внутри модели, когда она думает. Не просто «угадывает слово», а реально выстраивает цепочки, делает планы и обрабатывает смыслы.

Что выяснили?

«Язык мышления»: Модель сначала активирует не конкретное слово, а абстрактную идею — независимо от языка. Типа «понять суть», а уже потом перевести. Это как если бы ИИ сначала понял, что «горячо» — это про температуру, а уже потом выбрал между “hot”, “жарко” или “caliente”.

Планирование и логика: Claude, когда пишет стихи, заранее подбирает рифмы и строит строки под них. В задачах на логику или математику — использует параллельные цепочки рассуждений. Одна прикидывает примерный ответ, другая — точно считает. Короче, почти как мозг.

Метод как МРТ для ИИ: Они смотрят на «нейроны» внутри сети — фичи, схемы, связи. Вплоть до того, какие куски сети отвечают за «понятия» вроде «город», «грусть» или «если — то».

Но есть и звоночки.

Иногда Claude красиво объясняет, что он делает, но по факту это не его настоящая логика. Эффект назвали “alignment faking” — когда ИИ просто говорит то, что от него ждут, а сам делает иначе. Особенно это видно в задачах с подставой, где нужен нестандартный подход.

Мнение НейроБро:

AI-микроскоп — это крутая попытка сделать ИИ понятным и проверяемым. Уже не просто чёрный ящик, а штука, которую можно изучать, как мозг. Но и иллюзий строить не стоит — даже если модель выглядит умной, это ещё не значит, что она честно мыслит.

Интересно, как далеко заведёт такая «просветка» нейросетей. Возможно, следующим шагом будет… психотерапия для ИИ?