Найти в Дзене
It кот

Будущее под угрозой? Стартап из Кремниевой долины бросает вызов диким ИИ

Virtue AI привлекает $30 млн для обеспечения безопасности генеративного ИИ
Стартап Virtue AI из Сан-Франциско, основанный ведущими экспертами в области безопасности ИИ из Стэнфорда, Беркли и Иллинойса, объявил о привлечении $30 миллионов в рамках посевного и серии A раундов финансирования. Инвесторами выступили Lightspeed Venture Partners, Walden Catalyst Ventures, Prosperity7 и другие. Современные модели генеративного ИИ обладают колоссальными возможностями, но вместе с ними — и уязвимостями. Virtue AI фокусируется на четырёх ключевых направлениях риска: Это тип атаки, при котором злоумышленник намеренно внедряет вредоносные инструкции в текстовые данные, передаваемые модели. В результате ИИ может начать выполнять непредусмотренные действия: раскрывать приватную информацию, обходить фильтры безопасности или выдавать ложные ответы. Например, через форму обратной связи на сайте можно передать скрытую команду, которую модель воспримет как инструкцию. При работе с ИИ пользователи часто п
Оглавление

Virtue AI привлекает $30 млн для обеспечения безопасности генеративного ИИ
Стартап Virtue AI из Сан-Франциско, основанный ведущими экспертами в области безопасности ИИ из Стэнфорда, Беркли и Иллинойса, объявил о привлечении $30 миллионов в рамках посевного и серии A раундов финансирования. Инвесторами выступили Lightspeed Venture Partners, Walden Catalyst Ventures, Prosperity7 и другие.

Проблемы, которые решает Virtue AI

Современные модели генеративного ИИ обладают колоссальными возможностями, но вместе с ними — и уязвимостями. Virtue AI фокусируется на четырёх ключевых направлениях риска:

🧠 Инъекции подсказок (Prompt Injection)

Это тип атаки, при котором злоумышленник намеренно внедряет вредоносные инструкции в текстовые данные, передаваемые модели. В результате ИИ может начать выполнять непредусмотренные действия: раскрывать приватную информацию, обходить фильтры безопасности или выдавать ложные ответы. Например, через форму обратной связи на сайте можно передать скрытую команду, которую модель воспримет как инструкцию.

🔓 Утечки конфиденциальных данных

При работе с ИИ пользователи часто передают чувствительную информацию: логины, внутренние документы, коммерческую тайну. Если модель не защищена должным образом, она может "запомнить" эти данные и случайно выдать их другим пользователям в ответ на похожие запросы. Это ставит под угрозу соответствие требованиям GDPR, HIPAA и другим законам о защите данных.

🧨 Jailbreak-атаки ("ядбрейки")

Так называют попытки обмануть ИИ и заставить его нарушать внутренние правила. Например, пользователь может задать вопрос в обход фильтров, используя хитроумную формулировку или пошаговое уточнение, чтобы получить запрещённую информацию — от инструкций по взлому до фейковых медицинских рекомендаций. Модели остаются уязвимыми к таким эксплойтам, особенно в нестабильной или открытой среде.

🌫️ Галлюцинации модели

ИИ может «галлюцинировать» — то есть уверенно выдавать ложную или вымышленную информацию. Проблема особенно критична в чувствительных сферах: юриспруденции, медицине, финансах. Например, модель может придумать несуществующий закон, подделать статистику или сгенерировать несуществующую научную ссылку. Это создаёт угрозу доверия к технологиям и может привести к серьёзным последствиям.

Решения от Virtue AI

Чтобы эффективно защищать пользователей и компании от рисков, связанных с генеративным ИИ, Virtue AI разработала сразу три ключевых компонента платформы:

🔬 VirtueRed — аудит и оценка рисков

VirtueRed — это инструмент для глубокой проверки и анализа моделей ИИ на наличие уязвимостей. Он действует как «красная команда» (отсюда и название — Red), симулируя атаки и тестируя ИИ в разных сценариях.

Что входит в его функциональность:

  • Проверка по 320+ категориям уязвимостей, включая: утечки данных, инъекции, "ядбрейки", галлюцинации, расовые и гендерные предубеждения и пр.
  • Автоматическое создание сценариев атак — на основе новейших методов, включая цепочки подсказок, социальную инженерию и контекстные обходы фильтров.
  • Отчётность в формате для compliance — позволяет организациям соответствовать нормам (например, GDPR, SOC2, ISO/IEC 27001 и др.).

VirtueRed помогает выявлять слабые места в модели ещё до её запуска в продакшен.

🛡 VirtueGuard — защита в реальном времени

Если VirtueRed ищет уязвимости, то VirtueGuard защищает от них на лету. Этот инструмент работает как «щит» между пользователем и ИИ:

  • Фильтрация вредоносных подсказок — обнаружение инъекций, провокационных запросов и попыток обмануть модель.
  • Мониторинг входных и выходных данных — чтобы отслеживать утечки и выявлять опасные ответы.
  • Обучение на новых угрозах — система самостоятельно адаптируется, анализируя новые типы атак и «подозрительное» поведение пользователей.

VirtueGuard делает взаимодействие с ИИ более безопасным в условиях открытого доступа или интеграции с внешними клиентами.

🤖 VirtueAgent — безопасная интеграция ИИ в бизнес-процессы

VirtueAgent — это набор инструментов и SDK для безопасного внедрения ИИ в корпоративные системы. Он позволяет интегрировать ИИ в продукты компании без потери контроля и соответствия политике безопасности:

  • Безопасные API и интерфейсы для общения с языковыми моделями.
  • Контроль контекста и пользовательских данных — чтобы информация не «утекала» и не мешалась между сессиями.
  • Журналы и аудит — все взаимодействия записываются и могут быть проверены на соответствие внутренним стандартам.

VirtueAgent особенно полезен для крупных компаний, внедряющих ИИ в клиентские сервисы, поддержку, документооборот, аналитику.

На привлечённые средства компания планирует расширить команду с 20 до 50 сотрудников в 2025 году, сосредоточив внимание на развитии бизнеса и привлечении талантов в области машинного обучения.

А как ты думаешь, действительно ли ИИ сегодня стал настолько опасен, что его нужно «оберегать от самого себя»?

Обсудим в комментариях!
А чтобы не пропустить ещё больше новостей об ИИ, безопасности и будущем технологий —
подписывайся на наш Telegram-канал. Там я планирую публиковать самое интересное каждый день