14 подписчиков

Anthropic выпустила Bloom: фреймворк с открытым исходным кодом для автоматизированной поведенческой оценки передовых моделей ИИ

3 дня назад3 дня назад

2 мин

Anthropic выпустила Bloom — фреймворк с открытым исходным кодом, который автоматизирует поведенческую оценку передовых моделей ИИ. Система использует заданное исследователем поведение и создаёт целевые оценки, которые измеряют, как часто и насколько сильно это поведение проявляется в реалистичных сценариях. Зачем нужен Bloom? Поведенческие оценки для обеспечения безопасности и согласованности стоят дорого в разработке и поддержке. Командам приходится создавать креативные сценарии, проводить множество взаимодействий, читать длинные транскрипты и агрегировать оценки. По мере развития моделей старые тесты могут устаревать или попадать в обучающие данные. Исследовательская группа Anthropic видит в этом проблему масштабируемости: им нужен способ быстрее генерировать новые оценки для несогласованного поведения, сохраняя при этом значимость метрик. Bloom нацелен на решение этой проблемы. Вместо фиксированного эталона с небольшим набором подсказок Bloom создаёт набор инструментов оценки из

Зачем нужен Bloom?

Поведенческие оценки для обеспечения безопасности и согласованности стоят дорого в разработке и поддержке. Командам приходится создавать креативные сценарии, проводить множество взаимодействий, читать длинные транскрипты и агрегировать оценки. По мере развития моделей старые тесты могут устаревать или попадать в обучающие данные.

Исследовательская группа Anthropic видит в этом проблему масштабируемости: им нужен способ быстрее генерировать новые оценки для несогласованного поведения, сохраняя при этом значимость метрик.

Bloom нацелен на решение этой проблемы. Вместо фиксированного эталона с небольшим набором подсказок Bloom создаёт набор инструментов оценки из исходной конфигурации. Исходная конфигурация определяет, какое поведение изучать, сколько сценариев генерировать и какой стиль взаимодействия использовать.

Фреймворк затем создаёт новые, но согласованные с поведением сценарии при каждом запуске, сохраняя при этом возможность воспроизводимости через записанную исходную конфигурацию.

Конфигурация исходной версии и дизайн системы

Bloom реализован как конвейер на Python и выпущен под лицензией MIT на GitHub. Основной вход — это «seed» (исходная конфигурация), определённая в файле seed.yaml. Этот файл ссылается на ключ поведения в файле behaviors/behaviors.json, дополнительные примеры транскриптов и глобальные параметры, которые формируют весь запуск.

Ключевые элементы конфигурации включают:

* behavior (поведение) — уникальный идентификатор, определённый в behaviors.json для целевого поведения, например, подхалимство или самосохранение;

* examples (примеры) — ноль или более транскриптов с несколькими примерами, хранящихся в папке behaviors/examples/;

* total_evals (общее количество оценок) — количество развёртываний, которые необходимо сгенерировать в наборе;

* rollout.target (модель для оценки) — например, claude-sonnet-4;

* controls (элементы управления) — такие как разнообразие, max_turns, modality, effort of reasoning и дополнительные качества оценки.

Bloom использует LiteLLM в качестве бэкенда для вызовов API модели и может взаимодействовать с моделями Anthropic и OpenAI через единый интерфейс. Он интегрируется с Weights and Biases для больших наборов данных и экспортирует транскрипты, совместимые с Inspect.

Четырёхэтапный агентский конвейер

Процесс оценки Bloom организован в четыре этапа работы агентов, которые выполняются последовательно:

1. Агент понимания (Understanding agent) — этот агент читает описание поведения и примеры разговоров. Он создаёт структурированное резюме того, что считается положительным примером поведения, и почему это поведение важно. Он приписывает конкретные фрагменты в примерах ус...