2025 годы ознаменовались важными открытиями в области внутренней архитектуры больших языковых моделей (LLM). Развитие методов механистической интерпретируемости позволило учёным впервые заглянуть внутрь этих систем, увидеть, как они формируют представления не только о внешнем мире, но и о собственных действиях. Хотя это и не сознание, LLM обладают способностью к самонаблюдению в ограниченном функциональном смысле. 1. Фундамент: что мы знаем о внутреннем мире LLM к 2026 году Ключевой прорыв - механистическая интерпретируемость, исследование не только того, что делает модель, но и как именно, по каким нейронным цепям. Исследования компании Anthropic (2024–2025) показали, что модели вроде Claude 3.5. Opus обладают: - Фичами - отдельными нейронными активациями, соответствующими конкретным понятиям (например, «научная точность», «этика», «сарказм»). - Цепями рассуждений - последовательностями слоёв, отвечающих за логику, проверку фактов и поиск противоречий. - Моделями намерений пользовател