10,9 тыс подписчиков

⚡️ Anthropic показали главную уязвимость современного AI

3 дня назад3 дня назад

101

1 мин

И это не модели. Это pipeline обучения через API. По данным компании, несколько лабораторий использовали около 24 000 фейковых аккаунтов, чтобы сделать 16+ миллионов запросов к Claude и использовать ответы для обучения своих моделей. Этот подход называется distillation. Суть простая: вместо обучения модели с нуля → вы показываете ей миллионы примеров того, как отвечает более умная модель Фактически: не учишься решать задачи а «переписываешь ответы отличника». Важно понимать: distillation — не новая техника. Все лаборатории используют её внутри, чтобы делать более дешёвые версии своих моделей. Новое — масштаб. Теперь это происходит через массовые API-запросы, как промышленная операция. Что делали: - DeepSeek просил модель объяснять рассуждения шаг за шагом - Moonshot собирал данные по агентным сценариям - MiniMax сделал ~13 млн запросов и адаптировался за 24 часа после выхода новой модели Это открывает новый класс рисков. Новая модель угроз 1. Скопированные модели могут поте

⚡️ Anthropic показали главную уязвимость современного AI.

И это не модели.

Это pipeline обучения через API.

По данным компании, несколько лабораторий использовали около 24 000 фейковых аккаунтов, чтобы сделать 16+ миллионов запросов к Claude и использовать ответы для обучения своих моделей.

Этот подход называется distillation.

Суть простая:

вместо обучения модели с нуля

→ вы показываете ей миллионы примеров того, как отвечает более умная модель

Фактически:

не учишься решать задачи

а «переписываешь ответы отличника».

Важно понимать: distillation — не новая техника.

Все лаборатории используют её внутри, чтобы делать более дешёвые версии своих моделей.

Новое — масштаб.

Теперь это происходит через массовые API-запросы, как промышленная операция.

Что делали:

- DeepSeek просил модель объяснять рассуждения шаг за шагом

- Moonshot собирал данные по агентным сценариям

- MiniMax сделал ~13 млн запросов и адаптировался за 24 часа после выхода новой модели

Это открывает новый класс рисков.

Новая модель угроз

1. Скопированные модели могут потерять safety-ограничения

2. Экспортные ограничения на чипы теряют смысл, если поведение можно «воспроизвести» через API

3. Продвинутые возможности могут появляться без встроенных защит

4. Быстрый прогресс конкурентов может быть результатом distillation, а не исследований

Главная мысль:

Раньше считалось, что главный ресурс — это compute.

Теперь ясно:

Главный актив — поведение модели.

И его можно приблизительно восстановить через миллионы запросов.

Проблема для индустрии — координация.

Если защиту усилит одна компания,

атакующий просто перейдёт к той, у кого защита слабее.

Окно для создания общей инфраструктуры защиты быстро закрывается.

Илон Маск прокомментировал ситуацию у себя в X 😂 -

Как они смеют красть то, что Anthropic сама украла у программистов?