Найти тему

Область применения DeepMind Gemma находится под колпаком больших языковых моделей

Оглавление
Фото предоставлено VentureBeat совместно с DALL-E 3
Фото предоставлено VentureBeat совместно с DALL-E 3

Большие языковые модели (LLM) стали очень хороши при генерации текста и кода, переводе языков и написании различных видов креативного контента. Однако внутреннюю работу этих моделей трудно понять даже исследователям, которые их обучают.

Отсутствие возможности интерпретации создает проблемы для использования LLM в критически важных приложениях, которые имеют низкую допускаемую вероятность ошибок и требуют прозрачности. Чтобы решить эту проблему, Google DeepMind выпустил Gemma Scope, новый набор инструментов, который проливает свет на процесс принятия решений в моделях Gemma 2.

Gemma Scope построена поверх JumpReLU sparse autoencoders (SAEs), архитектуры глубокого обучения, недавно предложенной DeepMind.

Понимание активаций LLM с помощью разреженных автокодеров

Когда LLM получает входные данные, он обрабатывает их через сложную сеть искусственных нейронов. Значения, излучаемые этими нейронами, известные как “активации”, представляют понимание моделью входных данных и определяют ее реакцию.

Изучая эти активации, исследователи могут получить представление о том, как LLM обрабатывают информацию и принимают решения. В идеале мы должны быть в состоянии понять, какие нейроны каким концепциям соответствуют.

Однако интерпретация этих активаций является серьезной проблемой, поскольку LLM содержат миллиарды нейронов, и каждый вывод приводит к огромному беспорядку значений активации на каждом уровне модели. Каждая концепция может запускать миллионы активаций на разных уровнях LLM, и каждый нейрон может активироваться в рамках различных концепций.

Одним из ведущих методов интерпретации активаций LLM является использование разреженных автоэнкодеров (SAE). SAE - это модели, которые могут помочь интерпретировать LLM путем изучения активаций на их различных уровнях, иногда называемые “механистической интерпретируемостью”. SAE обычно обучаются активации уровня в модели глубокого обучения.

SAE пытается представить входные активации с меньшим набором функций, а затем реконструировать исходные активации на основе этих функций. Выполняя это неоднократно, SAE учится сжимать плотные активации в более интерпретируемую форму, облегчая понимание того, какие функции во входных данных активируют различные части LLM.

Область применения Gemma

Предыдущие исследования SAEs в основном были сосредоточены на изучении крошечных языковых моделей или одного слоя в более крупных моделях. Однако в DeepMind Gemma Scope используется более комплексный подход, предоставляя SAES для каждого уровня и подуровня своих моделей Gemma 2 2B и 9B.

Gemma Scope включает в себя более 400 SAE, которые в совокупности представляют более 30 миллионов изученных функций из моделей Gemma 2. Это позволит исследователям изучить, как различные функции развиваются и взаимодействуют на разных уровнях LLM, обеспечивая гораздо более глубокое понимание процесса принятия решений в модели.

“Этот инструмент позволит исследователям изучать, как функции развиваются по всей модели, взаимодействуют и комбинируются для создания более сложных функций”, - говорится в сообщении в блоге DeepMind. Gemma Scope использует новую архитектуру DeepMind под названием JumpReLU SAE.

Предыдущие архитектуры SAE использовали функцию rectified linear unit (ReLU) для обеспечения разреженности. ReLU обнуляет все значения активации ниже определенного порога, что помогает определить наиболее важные функции. Однако ReLU также затрудняет оценку эффективности этих функций, поскольку любое значение ниже порогового значения равно нулю.

JumpReLU устраняет это ограничение, позволяя SAE определять различный порог активации для каждой функции. Это небольшое изменение облегчает SAE поиск баланса между определением того, какие функции присутствуют, и оценкой их силы. JumpReLU также помогает поддерживать низкую разреженность при одновременном повышении точности реконструкции, что является одной из основных задач SAEs.

К более надежным и прозрачным LLM

DeepMind выпустила Gemma Scope на Hugging Face, сделав его общедоступным для использования исследователями.

“Мы надеемся, что сегодняшний релиз позволит провести более масштабные исследования интерпретируемости”, - говорят в DeepMind. “Дальнейшие исследования потенциально могут помочь в области создания более надежных систем, разработать более эффективные средства защиты от галлюцинаций моделей и защитить от рисков, исходящих от автономных агентов искусственного интеллекта, таких как обман или манипулирование”.

Поскольку LLM продолжают развиваться и находят все более широкое применение в корпоративных приложениях, лаборатории искусственного интеллекта стремятся предоставить инструменты, которые помогут им лучше понимать поведение этих моделей и контролировать его.

SAE, такие как набор моделей, представленных в Gemma Scope, стали одним из наиболее перспективных направлений исследований. Они могут помочь разработать методы обнаружения и блокирования нежелательного поведения в LLM, например, создания вредоносного или предвзятого контента. Выпуск Gemma Scope может помочь в различных областях, таких как обнаружение и исправление джейлбрейков LLM, управление поведением моделей, повторное объединение SAE и обнаружение интересных особенностей языковых моделей, таких как то, как они осваивают конкретные задачи.

Anthropic и OpenAI также работаютнад своим собственным исследованием SAE и за последние месяцы выпустили несколько статей. В то же время ученые также изучают немеханические методы, которые могут помочь лучше понять внутреннюю работу LLM. Примером может служить недавняя методика, разработанная OpenAI, которая объединяет две модели для проверки ответов друг друга. Этот метод использует геймифицированный процесс, который побуждает модель предоставлять проверяемые и разборчивые ответы.