Virtue AI привлекает $30 млн для обеспечения безопасности генеративного ИИ
Стартап Virtue AI из Сан-Франциско, основанный ведущими экспертами в области безопасности ИИ из Стэнфорда, Беркли и Иллинойса, объявил о привлечении $30 миллионов в рамках посевного и серии A раундов финансирования. Инвесторами выступили Lightspeed Venture Partners, Walden Catalyst Ventures, Prosperity7 и другие.
Проблемы, которые решает Virtue AI
Современные модели генеративного ИИ обладают колоссальными возможностями, но вместе с ними — и уязвимостями. Virtue AI фокусируется на четырёх ключевых направлениях риска:
🧠 Инъекции подсказок (Prompt Injection)
Это тип атаки, при котором злоумышленник намеренно внедряет вредоносные инструкции в текстовые данные, передаваемые модели. В результате ИИ может начать выполнять непредусмотренные действия: раскрывать приватную информацию, обходить фильтры безопасности или выдавать ложные ответы. Например, через форму обратной связи на сайте можно передать скрытую команду, которую модель воспримет как инструкцию.
🔓 Утечки конфиденциальных данных
При работе с ИИ пользователи часто передают чувствительную информацию: логины, внутренние документы, коммерческую тайну. Если модель не защищена должным образом, она может "запомнить" эти данные и случайно выдать их другим пользователям в ответ на похожие запросы. Это ставит под угрозу соответствие требованиям GDPR, HIPAA и другим законам о защите данных.
🧨 Jailbreak-атаки ("ядбрейки")
Так называют попытки обмануть ИИ и заставить его нарушать внутренние правила. Например, пользователь может задать вопрос в обход фильтров, используя хитроумную формулировку или пошаговое уточнение, чтобы получить запрещённую информацию — от инструкций по взлому до фейковых медицинских рекомендаций. Модели остаются уязвимыми к таким эксплойтам, особенно в нестабильной или открытой среде.
🌫️ Галлюцинации модели
ИИ может «галлюцинировать» — то есть уверенно выдавать ложную или вымышленную информацию. Проблема особенно критична в чувствительных сферах: юриспруденции, медицине, финансах. Например, модель может придумать несуществующий закон, подделать статистику или сгенерировать несуществующую научную ссылку. Это создаёт угрозу доверия к технологиям и может привести к серьёзным последствиям.
Решения от Virtue AI
Чтобы эффективно защищать пользователей и компании от рисков, связанных с генеративным ИИ, Virtue AI разработала сразу три ключевых компонента платформы:
🔬 VirtueRed — аудит и оценка рисков
VirtueRed — это инструмент для глубокой проверки и анализа моделей ИИ на наличие уязвимостей. Он действует как «красная команда» (отсюда и название — Red), симулируя атаки и тестируя ИИ в разных сценариях.
Что входит в его функциональность:
- Проверка по 320+ категориям уязвимостей, включая: утечки данных, инъекции, "ядбрейки", галлюцинации, расовые и гендерные предубеждения и пр.
- Автоматическое создание сценариев атак — на основе новейших методов, включая цепочки подсказок, социальную инженерию и контекстные обходы фильтров.
- Отчётность в формате для compliance — позволяет организациям соответствовать нормам (например, GDPR, SOC2, ISO/IEC 27001 и др.).
VirtueRed помогает выявлять слабые места в модели ещё до её запуска в продакшен.
🛡 VirtueGuard — защита в реальном времени
Если VirtueRed ищет уязвимости, то VirtueGuard защищает от них на лету. Этот инструмент работает как «щит» между пользователем и ИИ:
- Фильтрация вредоносных подсказок — обнаружение инъекций, провокационных запросов и попыток обмануть модель.
- Мониторинг входных и выходных данных — чтобы отслеживать утечки и выявлять опасные ответы.
- Обучение на новых угрозах — система самостоятельно адаптируется, анализируя новые типы атак и «подозрительное» поведение пользователей.
VirtueGuard делает взаимодействие с ИИ более безопасным в условиях открытого доступа или интеграции с внешними клиентами.
🤖 VirtueAgent — безопасная интеграция ИИ в бизнес-процессы
VirtueAgent — это набор инструментов и SDK для безопасного внедрения ИИ в корпоративные системы. Он позволяет интегрировать ИИ в продукты компании без потери контроля и соответствия политике безопасности:
- Безопасные API и интерфейсы для общения с языковыми моделями.
- Контроль контекста и пользовательских данных — чтобы информация не «утекала» и не мешалась между сессиями.
- Журналы и аудит — все взаимодействия записываются и могут быть проверены на соответствие внутренним стандартам.
VirtueAgent особенно полезен для крупных компаний, внедряющих ИИ в клиентские сервисы, поддержку, документооборот, аналитику.
На привлечённые средства компания планирует расширить команду с 20 до 50 сотрудников в 2025 году, сосредоточив внимание на развитии бизнеса и привлечении талантов в области машинного обучения.
А как ты думаешь, действительно ли ИИ сегодня стал настолько опасен, что его нужно «оберегать от самого себя»?
Обсудим в комментариях!
А чтобы не пропустить ещё больше новостей об ИИ, безопасности и будущем технологий — подписывайся на наш Telegram-канал. Там я планирую публиковать самое интересное каждый день