3 подписчика

Механистическая интерпретация больших языковых моделей: обзор исследований 2023–2025 // Часть1

18 апреля 202518 апр 2025

6 мин

Большие языковые модели (LLM) достигли впечатляющих успехов, однако их внутреннее устройство остается во многом «черным ящиком». Механистическая интерпретация – это направление исследований, стремящееся понять, как именно нейросеть реализует свои способности изнутриarxiv.org. В 2023–2025 годах интерес к этой области резко возрос, и ведущие лаборатории (Anthropic, Goodfire, OpenAI, DeepMind, Meta AI и др.) опубликовали ряд значимых работ. Цель данного обзора – интуитивно объяснить ключевые эксперименты, визуализации и выводы этих исследований, без углубления в сложные математические детали. Мы рассмотрим, как исследователи разлагают представления модели на интерпретируемые компоненты, выявляют «фичи» (скрытые признаки) и «цепи вычислений» (circuits), а также что нового удалось узнать о том, как думают большие языковые модели. Особое внимание уделяется работам Anthropic и Goodfire 2024–2025 годов, а также важным результатам других команд. Одна из центральных проблем интерпретируемости

Оглавление

Введение
От нейронов к скрытым признакам: новые единицы смысла
Карта концепций внутри большой модели

Введение

Большие языковые модели (LLM) достигли впечатляющих успехов, однако их внутреннее устройство остается во многом «черным ящиком». Механистическая интерпретация – это направление исследований, стремящееся понять, как именно нейросеть реализует свои способности изнутриarxiv.org. В 2023–2025 годах интерес к этой области резко возрос, и ведущие лаборатории (Anthropic, Goodfire, OpenAI, DeepMind, Meta AI и др.) опубликовали ряд значимых работ. Цель данного обзора – интуитивно объяснить ключевые эксперименты, визуализации и выводы этих исследований, без углубления в сложные математические детали. Мы рассмотрим, как исследователи разлагают представления модели на интерпретируемые компоненты, выявляют «фичи» (скрытые признаки) и «цепи вычислений» (circuits), а также что нового удалось узнать о том, как думают большие языковые модели. Особое внимание уделяется работам Anthropic и Goodfire 2024–2025 годов, а также важным результатам других команд.

От нейронов к скрытым признакам: новые единицы смысла

Одна из центральных проблем интерпретируемости – полисемантичность нейронов. Индивидуальный нейрон часто активируется в разных несвязанных контекстах, не соответствуя однозначно какому-то понятию. Например, в одном эксперименте один нейрон маленькой языковой модели проявлял активность при появлении цитат, диалогов на английском, HTTP-запросов и даже корейского текстаanthropic.com. Иными словами, один нейрон может «значить» сразу многое, что затрудняет понимание.

Исследователи из Anthropic предложили искать более подходящую единицу интерпретации – «фичу» (feature), представляющую собой определенный шаблон активаций множества нейроновanthropic.com. В их работе «Towards Monosemanticity» (2023) была применена техника dictionary learning (обучение словарей признаков) к небольшой трансформерной модели. Алгоритм пытается разложить вектор активаций слоя на сумму типовых компонентов – иными словами, представить состояние нейросети через набор активных фич вместо набора активных нейроновanthropic.com. Фича – это линейная комбинация нейронов, которая стабильно возникает в различных контекстах и, как оказалось, может соответствовать осмысленной концепции. В небольшом трансформере с 512 нейронами удалось выделить более 4000 интерпретируемых фич, каждая из которых была ближе к понятию, понятному человекуanthropic.comanthropic.com. Примеры таких фич: шаблоны DNA-последовательностей, юридические формулировки, фрагменты на иврите, разделы с питанием – то, что невозможно выявить, глядя только на поактивность отдельных нейроновanthropic.com. Независимая оценка показала, что интерпретируемость фич значительно выше, чем у индивидуальных нейроновanthropic.com. Кроме того, авторы автоматически сгенерировали описания некоторых фич с помощью крупной языковой модели и подтвердили, что эти описания действительно предсказывают активации фич (тем самым частично проверив их смысл)anthropic.com.

Идея разложения нейросети на фичи быстро привлекла внимание. Появились попытки применить схожие методы к более крупным моделямanthropic.com. Однако оставался вопрос: сохраняется ли интерпретируемость фич в огромных современных LLM с миллиардами параметров? Разные исследования 2023 года намекали, что распределенные представления (superposition) в больших сетях могут быть еще запутаннее, и требуются масштабируемые решения. В конце 2023 года команда Anthropic сделала первый шаг: успешно выделила интерпретируемые фичи в небольшом «игрушечном» трансформере, подготовив почву для более крупных экспериментовanthropic.com.

Карта концепций внутри большой модели

Весной 2024 года Anthropic сообщила о прорыве в масштабировании механистической интерпретации. В работе «Scaling Monosemanticity: Extracting Interpretable Features from Claude» исследователи применили метод словарного разложения к полноценной LLM Claude 3.0 (модель Sonnet). Им удалось извлечь миллионы фич из среднего слоя модели Claude 3.0 – фактически построить грубую «концептуальную карту» внутренних состояний моделиanthropic.com. Это стало первым детальным заглядыванием внутрь современной промышленной LLManthropic.com. Если фичи в игрушечной модели отражали довольно поверхностные шаблоны, то в случае Claude обнаруженные фичи продемонстрировали гораздо большую глубину, широту и абстрактность, соответствующую возможностям этой продвинутой моделиanthropic.com.

Что же это за фичи? Оказалось, что внутри модели представлены самые разные понятия. Многие фичи соответствуют конкретным сущностям и объектам: например, обнаружены фичи, реагирующие на названия городов (как «San Francisco»), имена известных персон (например, ученого Розалинд Франклин), названия химических элементов (литий), тематики наук (иммунология), элементы синтаксиса программирования (вызовы функций) и т.п.anthropic.com. Причем эти фичи оказались мультиязычными и мультимодальными: одна и та же фича активируется, если модель видит данную сущность в тексте на разных языках или даже на изображении!anthropic.com Например, одна из фич реагирует на упоминания моста Золотые Ворота – будь то английская фраза “Golden Gate Bridge”, ее описание на японском, китайском, русском и других языках, или фотография мостаanthropic.com. Это означает, что модель кодирует понятия не в одном нейроне, а распределенно – комбинация активаций множества нейронов соответствует осмысленному концепту, и такая комбинация (фича) общая для разных представлений этого концепта (слова или картинки).

Пример одной обнаруженной фичи (Claude 3.0): «фича Золотые Ворота» активируется на тексты и изображения, содержащие упоминания моста Золотые Ворота. Оранжевым цветом выделены те части входа, на которых срабатывает фича. Видно, что активация происходит на разных языках при упоминании того же объекта.anthropic.com

Помимо конкретных объектов, были выявлены и более абстрактные фичи, срабатывающие на определенные темы или ситуации. Например, фичи, реагирующие на баги в коде, на обсуждения гендерного перекоса в профессиях, или на контекст «держать секрет»anthropic.com. Наличие таких высокоуровневых признаков показывает, что модель улавливает и структурирует даже сложные концепты.

Интересным шагом стало изучение «геометрии» пространства фич. Поскольку каждая фича – это вектор в пространстве нейронных активаций, можно определить меру близости между фичами (например, по пересечению нейронов, участвующих в них)anthropic.com. Оказалось, что похожие по смыслу фичи находятся «рядом». Например, у фичи, связанной с Golden Gate Bridge, ближайшими соседями оказались фичи, отвечающие за другие достопримечательности Сан-Франциско: остров Алькатрас, площадь Гирарделли, баскетбольная команда Golden State Warriors, губернатор Калифорнии Гэвин Ньюсом, землетрясение 1906 года, фильм Хичкока «Головокружение», действие которого происходит в Сан-Францискоanthropic.com. То есть модель сгруппировала знание о связанных концепциях близко друг к другу. Аналогично, рядом с фичей абстрактного понятия «внутренняя борьба» оказались фичи, отражающие разрывы отношений, конфликт верности, логические противоречия и выражение «catch-22» (безвыходная ситуация)anthropic.com. Иными словами, внутренняя организация понятий в модели коррелирует с нашими человеческими представлениями о схожести идейanthropic.com. Возможно, именно поэтому модель Claude так сильна в аналогиях и метафорах: близкие по смыслу вещи она и внутренне хранит близко.

Таким образом, исследователям удалось построить своего рода «атлас знаний» внутри LLM, где фичи группируются по тематикам, подобно тому как в энциклопедии смежные статьи образуют связанные разделы. Этот результат продемонстрировал, что даже в гигантской модели сверхбольшое количество параметров не препятствует выделению осмысленных компонентов – напротив, там скрыто множество человечески понятных концептов, просто суперпозиция делает их размытыми без специальных методов выделения.