Почему наш мозг так похож на искусственный интеллект именно «в середине» процесса мышления? Ученые давно заметили парадокс: средние слои нейросетей (LLM) предсказывают активность мозга гораздо точнее, чем начальные или финальные. Но до сих пор никто не мог объяснить «на пальцах», какие именно механизмы за этим стоят.
Группа исследователей из Гонконга и Stellaris AI применила метод разреженных автоэнкодеров (SAE), чтобы буквально «разобрать» GPT-2 XL и Llama-3.1 на запчасти. Они выделили от 16 000 до 32 000 интерпретируемых признаков (фичей) на слой и сопоставили их с данными фМРТ человека.
◈ Семантика — король нейросвязей.
Исследователи классифицировали фичи на семантические, синтаксические, лексические и предиктивные. Оказалось, что одни только семантические признаки восстанавливают 94% точности предсказания работы мозга. Мозг почти не реагирует на «голый» синтаксис или структуру слов ИИ — он резонирует именно со смыслами.
◈ География смыслов совпала.
Авторы заранее вывели 5 катего