В последние годы большие языковые модели (LLM) достигли впечатляющих успехов в обработке естественного языка. Однако их внутренняя работа остается во многом непонятной, что затрудняет интерпретацию и объяснение их решений. В этом контексте разреженные автоэнкодеры (Sparse Autoencoders, SAE) становятся перспективным инструментом для раскрытия скрытых механизмов LLM. Одной из основных трудностей в интерпретации нейронных сетей является явление полисемантичности, когда отдельные нейроны активируются в различных, не связанных между собой контекстах. Это может быть следствием суперпозиции, при которой модели представляют больше признаков, чем имеется нейронов, распределяя их по множеству направлений в пространстве активаций. В результате становится сложно идентифицировать четкие, понятные человеку объяснения внутренней работы модели. Разреженные автоэнкодеры предлагают подход к решению этой проблемы, позволяя декомпозировать сложные, наложенные друг на друга признаки внутри LLM на более инт
Разреженные автоэнкодеры: ключ к пониманию внутренних механизмов больших языковых моделей
10 апреля 202510 апр 2025
4
2 мин