Найти в Дзене
chernovdev

Скрытая цена автономии: OpenAI тренирует агентов на корпоративных тайнах

Переход от LLM к полноценным AI agents требует данных, которые невозможно синтезировать. Стало известно, что OpenAI использует контракторов, которые за плату сливают реальные документы со своих основных работ для обучения системы, создавая серьёзные риски для корпоративной безопасности. Утечка через Data Partnership. Обучение agentic систем отличается от работы чат-ботов. Чтобы научить ИИ решать многошаговые рабочие задачи, ему нужно видеть реальные процессы. Контракторы загружают инвестиционные отчеты, спецификации и внутренние переписки, фактически превращая OpenAI в теневое хранилище чужих коммерческих секретов. Невольные шпионы. Работники нарушают NDA непреднамеренно. Инструкция "загружайте документы, к которым у вас есть доступ" создаёт правовую коллизию: формально сотрудник имеет доступ, но передача конфиденциальных данных третьей стороне для обучения моделей — это классический инцидент информбезопасности. Проблема "мусора в данных". Синтетические данные слишком идеальны. Агенты

Скрытая цена автономии: OpenAI тренирует агентов на корпоративных тайнах

Переход от LLM к полноценным AI agents требует данных, которые невозможно синтезировать. Стало известно, что OpenAI использует контракторов, которые за плату сливают реальные документы со своих основных работ для обучения системы, создавая серьёзные риски для корпоративной безопасности.

Утечка через Data Partnership. Обучение agentic систем отличается от работы чат-ботов. Чтобы научить ИИ решать многошаговые рабочие задачи, ему нужно видеть реальные процессы. Контракторы загружают инвестиционные отчеты, спецификации и внутренние переписки, фактически превращая OpenAI в теневое хранилище чужих коммерческих секретов.

Невольные шпионы. Работники нарушают NDA непреднамеренно. Инструкция "загружайте документы, к которым у вас есть доступ" создаёт правовую коллизию: формально сотрудник имеет доступ, но передача конфиденциальных данных третьей стороне для обучения моделей — это классический инцидент информбезопасности.

Проблема "мусора в данных". Синтетические данные слишком идеальны. Агенты должны учиться на реальном "мусоре" — кривых таблицах, сканах и неструктурированных текстах, чтобы быть полезными. Без этих "грязных" файлов агент будет бесполезен в реальных бизнес-условиях.

Риск компрометации. Хотя OpenAI заявляет о возможности удаления данных, факт их попадания в обучающую выборку или логи разработчиков создает необратимый риск. Компания получает инсайт во внутреннюю кухню конкурентов без официальных партнёрств, что поднимает этические вопросы.

Мы учим ИИ быть эффективными сотрудниками, жертвуя конфиденциальностью. Следующий прорыв в автоматизации может быть построен на документах, которые вы никогда не хотели показывать посторонним.

Источник

@chernovdev