Исследователи Google DeepMind представили Gemma Scope 2 — открытый набор инструментов для интерпретации, который демонстрирует, как языковые модели Gemma 3 обрабатывают и представляют информацию на всех уровнях — от 270 миллионов до 27 миллиардов параметров. Основная цель Gemma Scope 2 — предоставить командам, занимающимся безопасностью и согласованием ИИ, практичный способ отслеживать поведение модели по внутренним признакам, а не полагаться только на анализ ввода-вывода. Когда модель Gemma 3 совершает «побег из тюрьмы», галлюцинирует или проявляет подхалимское поведение, Gemma Scope 2 позволяет исследователям проверить, какие внутренние признаки сработали и как эти активации распространялись по сети. Что такое Gemma Scope 2? Gemma Scope 2 — это комплексный открытый набор инструментов, включающий разреженные автоэнкодеры и другие инструменты, обученные на внутренних активациях семейства моделей Gemma 3. Разреженные автоэнкодеры (SAEs) действуют как микроскоп для модели. Они разлага
Исследователи Google DeepMind выпустили Gemma Scope 2 — комплексный инструмент для интерпретации моделей Gemma 3
ВчераВчера
2 мин