5115 подписчиков

🧠 Cisco Model Provenance Kit: “ДНК-анализ” для AI-моделей

3 дня назад3 дня назад

1 мин

Недавно команда AI Defense из Cisco представила Model Provenance Kit — open-source инструмент для анализа происхождения ML-моделей. Проект помогает ответить на важный вопрос: действительно ли модель была обучена “с нуля”, или она является производной от другой модели? ❓ Что такое Model Provenance Model provenance — это установление происхождения модели на уровне ее обученных весов. Проще говоря, инструмент позволяет определить: ⏺️ была ли модель fine-tuned версией другой модели ⏺️ использовался ли distillation ⏺️ является ли checkpoint переименованной копией ⏺️ происходят ли две модели из общего базового источника Cisco сравнивает этот процесс с ДНК-анализом моделей. 🎇 Как работает инструмент Model Provenance Kit использует двухэтапный анализ. 1️⃣ Быстрая архитектурная проверка На первом этапе анализируются: ▶️ конфигурация модели ▶️ структура слоев ▶️ tokenizer ▶️ metadata Если архитектура явно совпадает — система может сделать вывод без загрузки весов. 2️⃣ Анализ весов модели

Недавно команда AI Defense из Cisco представила Model Provenance Kit — open-source инструмент для анализа происхождения ML-моделей.

Проект помогает ответить на важный вопрос: действительно ли модель была обучена “с нуля”, или она является производной от другой модели?

❓ Что такое Model Provenance

Model provenance — это установление происхождения модели на уровне ее обученных весов.

Проще говоря, инструмент позволяет определить:

⏺️ была ли модель fine-tuned версией другой модели

⏺️ использовался ли distillation

⏺️ является ли checkpoint переименованной копией

⏺️ происходят ли две модели из общего базового источника

Cisco сравнивает этот процесс с ДНК-анализом моделей.

🎇 Как работает инструмент

Model Provenance Kit использует двухэтапный анализ.

1️⃣ Быстрая архитектурная проверка

На первом этапе анализируются:

▶️ конфигурация модели

▶️ структура слоев

▶️ tokenizer

▶️ metadata

Если архитектура явно совпадает — система может сделать вывод без загрузки весов.

2️⃣ Анализ весов модели

Если метаданных недостаточно, запускается глубокий анализ весов:

▶️ embedding geometry;

▶️ normalization layers;

▶️ energy profiles;

▶️ прямое сравнение параметров;

▶️ корреляционные сигналы.

На основе этих признаков рассчитывается итоговый similarity score.

⬇️ Установка

git clone https://github.com/cisco-ai-defense/model-provenance-kit.git

cd model-provenance-kit

uv sync

Для работы достаточно CPU — GPU не требуется. Cisco отмечает, что архитектурные проверки выполняются за миллисекунды, а извлеченные признаки кешируются для повторного использования.

🎯 Пример использования

🧿 Сканирование модели по базе известных fingerprints

provenancekit scan bigscience/bloom-560m

Инструмент:

⏺️извлекает fingerprint модели;

⏺️запускает 3-stage lookup;

⏺️возвращает наиболее вероятные совпадения.

🪧 Сравнение двух моделей

provenancekit compare gpt2 distilgpt2

Результат включает:

➡️ metadata score;

➡️ tokenizer similarity;