Механистическая интерпретация больших языковых моделей: обзор исследований 2023–2025 // Часть1
Большие языковые модели (LLM) достигли впечатляющих успехов, однако их внутреннее устройство остается во многом «черным ящиком». Механистическая интерпретация – это направление исследований, стремящееся понять, как именно нейросеть реализует свои способности изнутриarxiv.org. В 2023–2025 годах интерес к этой области резко возрос, и ведущие лаборатории (Anthropic, Goodfire, OpenAI, DeepMind, Meta AI и др.) опубликовали ряд значимых работ. Цель данного обзора – интуитивно объяснить ключевые эксперименты, визуализации и выводы этих исследований, без углубления в сложные математические детали...