139,6 тыс подписчиков

Microsoft анонсировала новую систему безопасности для фильтрации лживых и выдуманных ответов ИИ

1 апреля 20241 апр 2024

2 мин

Генеративные системы искусственного интеллекта, такие как ChatGPT, меняют облик интернета, и не всегда в лучшую сторону. Microsoft одна из первых инвестировала огромные средства в компанию OpenAI, разработавшую ChatGPT, и теперь активно использует ее искусственный интеллект в своих целях. Помощник Copilot AI предлагается обычным пользователям во многих продуктах компании, а корпоративным клиентам доступны облачные инструменты, которые позволяют им создавать собственные большие языковые модели (LLM). Всем хорошо известно, что генеративный ИИ может страдать «галлюцинациями» и выдавать непредсказуемый результат, но Microsoft заявила, что скоро ее пользователи платформы искусственного интеллекта Azure получат новые инструменты, позволяющие контролировать искусственный интеллект.

Несмотря на все усилия, затраченные на тестирование и совершенствование LLM, разработчики, программирующие эти системы, иногда очень удивляются, как и мы, когда искусственный интеллект сходит с ума. Даже когда компания утверждает, что у неё есть модель, "стерилизованная" до такой степени, что не будет выдавать сексистский, ложный или насильственный контент, кто-то из недобросовестных пользователей все равно придумает новый способ общения с чат-ботом, который приведет к неподобающим результатам. Microsoft называет это «prompt injection attacks» (атаки с внедрением подсказок), что звучит как-то пафосно для новых способов формулирования подсказок.

Microsoft подробно рассказала о пяти новых функциях Azure AI Studio. Три из них уже доступны в предварительной версии Azure, а две другие появятся позже. Текущий набор опций включает Prompt Shield, мониторинг рисков и безопасности, а также оценку безопасности. Prompt Shield призван блокировать запросы от пользователей и от внешних документов (косвенные атаки), пытающиеся обмануть ИИ-модель и заставить ее выдавать вредоносный вывод. Мониторинг рисков и безопасности представляет собой набор инструментов, способных почти в реальном времени обнаруживать и удалять вредоносный контент. Кроме того, он помогает разработчикам визуализировать состояние фильтров контента в модели. Оценка безопасности позволяет проверять выходные данные модели на предмет содержания и безопасности, а также генерировать наборы данных для тестирования на наличие враждебных факторов, чтобы улучшить ручное тестирование моделей "красной командой".

В ближайшие месяцы платформа искусственного интеллекта Azure сможет генерировать шаблоны сообщений системы безопасности, которые помогут разработчикам направлять модели к более безопасным результатам. Последней функцией является Groundedness Detection, которая будет бороться с галлюцинациями. Эта функция анализирует все результаты, чтобы убедиться, что они не являются "ошибочными" или лишенными элементарного здравого смысла.

Microsoft будет автоматически добавлять эти функции безопасности к моделям GPT-4, но тут важно отметить, что платформа Azure предоставляет доступ и к многим другим моделям искусственного интеллекта. Пользователям некоторых менее популярных LLM, возможно, потребуется вручную подключить эти инструменты к таким ИИ-моделям. Благодаря растущему интересу к генеративному ИИ, благосостояние Microsoft также пошло в гору. Сосредоточив внимание на безопасности и защите, компания надеется устранить галлюцинации, которые преследуют новую технологию с первого дня ее существования.