Современные нейросети умеют многое, но не всегда адекватно реагируют на действия пользователя. Новая разработка NVIDIA с открытым исходным кодом позволяет избавить языковые модели от их основных недостатков в виде «галлюцинаций» или неподобающих ответов. В компании рассказали, как проект под названием NeMo Guardrails «воспитывает» чат-ботов.
NeMo Guardrails встраивается в существующие сервисы, которые обеспечивают связь с большими языковыми моделями. Фирменный софт перехватывает сообщения между пользователем и ИИ, чтобы уточнить запрос для чат-бота или скрыть неподобающий ответ. Guardrails поддерживает три уровня ограничений для ИИ: по теме диалога, по безопасности общения и по доступу к другим приложениям.
Границы по теме диалога не позволяют боту «отвлекаться». Например, в сфере обучения программированию это может быть реализовано добавлением в запрос невидимого для пользователя напоминания, что ИИ отвечает от имени программиста на Python, и ему нельзя приводить примеры кода на другом языке.
Второй тип границ отфильтровывает нежелательные ответы чат-бота и предотвращает манипуляции им со стороны пользователей, к примеру, если человек захочет использовать какой-либо джейлбрейк-запрос, Guardrails перехватит его и не отправит чат-боту. Последний вид ограничений запрещает ИИ обращаться к сторонним сервисам.
ПО можно настроить под свои нужды и интегрировать в уже существующие сервисы на основе ИИ. Guardrails входит в пакет AI Foundations, предлагающий языковые модели и фреймворки компаниям, у которых нет времени или ресурсов на обучение и поддержку собственных моделей. Пока фирменный софт доступен только разработчикам.