14 подписчиков

Исследователи Google DeepMind выпустили Gemma Scope 2 — комплексный инструмент для интерпретации моделей Gemma 3

ВчераВчера

2 мин

Исследователи Google DeepMind представили Gemma Scope 2 — открытый набор инструментов для интерпретации, который демонстрирует, как языковые модели Gemma 3 обрабатывают и представляют информацию на всех уровнях — от 270 миллионов до 27 миллиардов параметров. Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним признакам, а не полагаться только на анализ ввода-вывода. Когда модель Gemma 3 совершает «побег из тюрьмы», галлюцинирует или проявляет подхалимское поведение, Gemma Scope 2 позволяет исследователям проверить, какие внутренние признаки сработали и как эти активации распространялись по сети. Что такое Gemma Scope 2? Gemma Scope 2 — это комплексный открытый набор инструментов, включающий разреженные автоэнкодеры и другие инструменты, обученные на внутренних активациях семейства моделей Gemma 3. Разреженные автоэнкодеры (SAEs) действуют как микроскоп для модели. Они разлага

Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним признакам, а не полагаться только на анализ ввода-вывода. Когда модель Gemma 3 совершает «побег из тюрьмы», галлюцинирует или проявляет подхалимское поведение, Gemma Scope 2 позволяет исследователям проверить, какие внутренние признаки сработали и как эти активации распространялись по сети.

Что такое Gemma Scope 2?

Gemma Scope 2 — это комплексный открытый набор инструментов, включающий разреженные автоэнкодеры и другие инструменты, обученные на внутренних активациях семейства моделей Gemma 3. Разреженные автоэнкодеры (SAEs) действуют как микроскоп для модели. Они разлагают многомерные активации на разреженный набор доступных для человека признаков, которые соответствуют концепциям или поведению.

Для обучения Gemma Scope 2 потребовалось сохранить около 110 петабайт данных об активации и настроить более триллиона параметров во всех моделях интерпретации.

Набор инструментов нацелен на каждый вариант Gemma 3, включая модели с 270 миллионами, 1 миллиардом, 4 миллиардами, 12 миллиардами и 27 миллиардами параметров, и охватывает всю глубину сети. Это важно, поскольку многие важные для безопасности поведения проявляются только в более крупных масштабах.

Что нового по сравнению с оригинальным Gemma Scope?

Первый выпуск Gemma Scope был сосредоточен на Gemma 2 и уже позволил провести исследования галлюцинаций модели, выявления секретов, известных модели, и обучения более безопасным моделям.

Gemma Scope 2 расширяет эту работу в четырёх основных направлениях:

* Инструменты теперь охватывают всё семейство Gemma 3 до 27 миллиардов параметров, что необходимо для изучения эмерджентного поведения, наблюдаемого только в более крупных моделях, например, в модели C2S Scale размером 27 миллиардов для задач научного открытия.

* Gemma Scope 2 включает в себя SAE и транскодеры, обученные на каждом слое Gemma 3. Пропуск транскодеров и межслойные транскодеры помогают отслеживать многошаговые вычисления, распределённые по слоям.

* В наборе используется методика обучения «матрёшка», благодаря чему SAE обучаются более полезным и стабильным признакам и устраняются некоторые недостатки, выявленные в более раннем выпуске Gemma Scope.

* Существуют специальные инструменты для интерпретации моделей Gemma 3, настроенные для чата, которые позволяют анализировать многошаговое поведение, такое как «побег из тюрьмы», механизмы отказа и последовательность мысли.

Ключевые выводы

* Gemma Scope 2 — это открытый набор инструментов для интерпретации всех моделей Gemma 3, от 270 миллионов до 27 миллиардов параметров, с SAE и транскодерами на каждом слое как предварительно...