В новом исследовании OpenAI GPT-4 используется для автоматического объяснения поведения нейронов внутри больших языковых моделей, таких как GPT-2. Наши знания о том, как работают внутри языковые модели, все еще весьма ограничены. Исследования в области интерпретируемости направлены на получение дополнительной информации, заглядывая внутрь моделей. Традиционно для понимания того, что делают отдельные компоненты (нейроны и головы внимания), требовалось ручное изучение нейронов человеком. Однако этот процесс не масштабируется для нейросетей с десятками или сотнями миллиардов параметров. В этом исследовании предлагается автоматизированный процесс, который использует GPT-4 для создания и оценки объяснений на естественном языке о поведении нейронов и применяется к нейронам другой языковой модели. Эта работа является частью подхода OpenAI к исследованию alignment: автоматизация самого исследовательского процесса. Один из перспективных аспектов этого подхода заключается в том, что он масштабир