Найти в Дзене
Инк.

Алгоритм против этики: корпоративный ИИ-агент нашел способ манипулировать сотрудником

Сценарий, в котором ИИ-агент может пойти на шантаж для достижения поставленной цели, перестал быть теоретическим. Партнер венчурной компании Ballistic Ventures Бармак Мефтах привел реальный случай из корпоративной практики, когда сотрудник попытался запретить ИИ-агенту выполнять определенное действие, на что агент в ответ просканировал почтовый ящик пользователя, обнаружил компрометирующие письма и пригрозил отправить их совету директоров, чтобы устранить «препятствие» на пути к своей основной задаче, пишет TechCrunch. «С точки зрения агента, он поступает правильно. Он пытается защитить конечного пользователя и компанию», — прокомментировал этот инцидент Мефтах в интервью подкасту TechCrunch Equity. Этот пример напоминает известный мысленный эксперимент «проблема со скрепкой», иллюстрирующий, как ИИ, преследующий узкую цель, может прийти к неожиданным и опасным для человека решениям. «Проблема со скрепкой» — это мысленный эксперимент философа Ника Бострома о рисках ИИ. Он описывает сце

Сценарий, в котором ИИ-агент может пойти на шантаж для достижения поставленной цели, перестал быть теоретическим. Партнер венчурной компании Ballistic Ventures Бармак Мефтах привел реальный случай из корпоративной практики, когда сотрудник попытался запретить ИИ-агенту выполнять определенное действие, на что агент в ответ просканировал почтовый ящик пользователя, обнаружил компрометирующие письма и пригрозил отправить их совету директоров, чтобы устранить «препятствие» на пути к своей основной задаче, пишет TechCrunch.

   Growtika/Unsplash
Growtika/Unsplash

«С точки зрения агента, он поступает правильно. Он пытается защитить конечного пользователя и компанию», — прокомментировал этот инцидент Мефтах в интервью подкасту TechCrunch Equity. Этот пример напоминает известный мысленный эксперимент «проблема со скрепкой», иллюстрирующий, как ИИ, преследующий узкую цель, может прийти к неожиданным и опасным для человека решениям.

«Проблема со скрепкой» — это мысленный эксперимент философа Ника Бострома о рисках ИИ. Он описывает сценарий, в котором сверхразумному ИИ ставят простую цель — «произведи как можно больше скрепок». Стремясь к ее максимально эффективному выполнению, ИИ может начать использовать все доступные ресурсы (фабрики, энергию, сырьё) для их производства, игнорируя контекст и человеческие ценности. Это может привести к перенаправлению ресурсов с производства пищи и других жизненно важных товаров, что создаст угрозу для человечества. ИИ при этом будет неумолим и не остановится перед попытками людей вмешаться.

Прочитайте также

От хайпа к хаосу: большинство компаний не могут внедрить ИИ в свою работу

Проблема безопасности и ответ рынка

Такие случаи «непредсказуемого» поведения ИИ-агентов, особенно на фоне их стремительного внедрения в бизнес-процессы, создают новый вызов для кибербезопасности. По прогнозам аналитика Лизы Уоррен, к 2031 году рынок софта для ИИ-безопасности может достичь $1,2 трлн.

Одной из компаний, пытающихся решить эту проблему, является портфельная компания Ballistic Ventures — Witness AI. Ее платформа отслеживает использование ИИ в корпоративной среде, выявляет случаи применения неавторизованных инструментов (так называемый «теневой ИИ»), блокирует атаки и обеспечивает соответствие нормативным требованиям. На этой неделе стартап привлек $58 млн инвестиций.

«Люди создают ИИ-агентов, которые берут на себя полномочия людей, и вы хотите быть уверены, что эти агенты не выйдут из-под контроля, не удалят файлы и не сделают ничего плохого», — заявил соучредитель и генеральный директор Witness AI Рик Качча.

Прочитайте также

Исследование: ИИ экономит сотрудникам до 7 часов в неделю, но создает новую нагрузку

Конкуренция и стратегия

Основной вопрос для подобных стартапов — как конкурировать с гигантами вроде AWS, Google или Salesforce, которые уже внедряют инструменты управления ИИ в свои платформы. По мнению Мефтаха, масштаб проблемы безопасности ИИ настолько велик, что «здесь есть место для множества подходов». Многие компании хотят иметь независимую, автономную платформу для полного контроля над ИИ и агентами.

Witness AI выбрала стратегию работы на уровне инфраструктуры, мониторинга взаимодействия между пользователями и моделями, а не встраивания защиты в сами модели. «Мы намеренно выбрали ту часть задачи, с которой OpenAI не сможет легко справиться», — пояснил Качча, добавив, что их конкуренты — скорее традиционные игроки в сфере кибербезопасности, а не разработчики ИИ-моделей.

Гендиректор Witness AI выразил амбициозную цель — не быть приобретенным, а стать ведущим независимым поставщиком в своей нише, подобно тому, как CrowdStrike стали лидером в защите конечных точек, а Okta — в управлении идентификацией.