Добавить в корзинуПозвонить
Найти в Дзене
Николай Григорьев

На текущий момент мы находимся в фазе перехода от «алхимии» (смешиваем ингредиенты и смотрим, что выйдет) к ранней «нейробиологии

» искусственного интеллекта. Мы уже не просто наблюдаем за черным ящиком, а начинаем картировать его «нейронные связи», хотя до полной расшифровки еще далеко. 1. От Черного Ящика к «Стеклянному» (но очень мутному) Долгое время считалось, что внутри нейросети царит хаос из весов, не поддающийся анализу. Главная проблема — полисемантичность нейронов. Один и тот же нейрон может активироваться на концепты, которые для нас никак не связаны (например, на «академическую статью», «изображение кошки» и «программный код на Python»). Прорыв: Разреженные Автоэнкодеры (Sparse Autoencoders, SAE) В 2024–2025 годах Anthropic и OpenAI совершили прорыв, применив технику «разреженных автоэнкодеров». Это своеобразный «МРТ-сканер» для LLM. Суть: Исследователи обнаружили, что модели используют суперпозицию (superposition) — они упаковывают больше признаков (features), чем у них есть физических нейронов. Это как сжатие данных, где один нейрон участвует в кодировании сотен понятий одновременно. Результат: Пр

На текущий момент мы находимся в фазе перехода от «алхимии» (смешиваем ингредиенты и смотрим, что выйдет) к ранней «нейробиологии» искусственного интеллекта. Мы уже не просто наблюдаем за черным ящиком, а начинаем картировать его «нейронные связи», хотя до полной расшифровки еще далеко.

1. От Черного Ящика к «Стеклянному» (но очень мутному)

Долгое время считалось, что внутри нейросети царит хаос из весов, не поддающийся анализу. Главная проблема — полисемантичность нейронов. Один и тот же нейрон может активироваться на концепты, которые для нас никак не связаны (например, на «академическую статью», «изображение кошки» и «программный код на Python»).

Прорыв: Разреженные Автоэнкодеры (Sparse Autoencoders, SAE)

В 2024–2025 годах Anthropic и OpenAI совершили прорыв, применив технику «разреженных автоэнкодеров». Это своеобразный «МРТ-сканер» для LLM.

Суть: Исследователи обнаружили, что модели используют суперпозицию (superposition) — они упаковывают больше признаков (features), чем у них есть физических нейронов. Это как сжатие данных, где один нейрон участвует в кодировании сотен понятий одновременно.

Результат: Применив SAE, удалось разложить эту «кашу» на чистые, моносемантические признаки.

Внутри Claude Sonnet были найдены конкретные векторы, отвечающие за узкие понятия: например, «мост Золотые Ворота», «уязвимости в коде», «чувство тоски» или «биохимические номенклатуры».

Доказательство понимания: Ученые смогли вручную активировать «нейрон Золотых Ворот», и модель начала упоминать этот мост в совершенно нерелевантных контекстах (например, отвечая на вопрос «кто ты?», она говорила: «Я — мост Золотые Ворота»). Это доказывает, что модель оперирует абстрактными концептами, а не просто статистикой слов.

2. Как они обучаются: Феномен «Гроккинга» (Grokking)

Один из самых загадочных вопросов — как именно происходит переход от зазубривания к пониманию. Ответ кроется в феномене гроккинга (термин, взятый из романа Хайнлайна, означающий «глубокое интуитивное понимание»).

Фаза Что происходит Наблюдаемое поведение

1. Запоминание (Memorization) Модель пытается «зазубрить» обучающую выборку. Ошибка на тренировочных данных падает, на тестовых — высокая. Модель «списывает».

2. Плато Кажется, что обучение не идет. Loss-функция почти не меняется. Модель работает как «стохастический попугай».

3. Гроккинг (Phase Change) Внезапный фазовый переход. Модель находит общий алгоритм, решающий задачу. Резкое падение ошибки на тестовых данных. Появляется обобщение (generalization).

Исследования показывают, что «гроккинг» происходит, когда веса модели «упрощаются». Регуляризация (weight decay) подталкивает сеть отказаться от сложных схем запоминания в пользу простых, генерализуемых правил (Бритва Оккама на уровне математики).

3. Механика мышления: Индукционные Головы (Induction Heads)

Если мы спросим «какой механизм отвечает за in-context learning (способность обучаться на примерах прямо в промпте)?», ответ уже найден — это индукционные головы.

Это специфические микросхемы (circuits) внутри слоев внимания, которые реализуют простой алгоритм:

«Я уже видел этот токен [A] раньше?»

«Если да, то что шло после него [B]?»

«Скопируй [B] и подставь сейчас».

Именно в момент формирования этих «индукционных голов» в процессе обучения модель внезапно обретает способность к few-shot learning (обучению на паре примеров). Это не магия, а жесткая алгоритмическая структура, которая самозарождается в недрах сети.

4. Что они на самом деле выучивают: Мировые Модели vs. Статистика

Главный философский спор: есть ли у модели картина мира или только статистика текста?

Исследования 2023–2025 годов (знаменитый кейс Othello-GPT) поставили точку в этом вопросе в пользу Мировых Моделей (World Models).

Эксперимент: Модель обучили предсказывать ходы в игре Отелло, скармливая ей только текстовые записи партий (e4, c5...). Ей никогда не показывали доску или правила.