139,6 тыс подписчиков

Nvidia разработала агента по надзору за искусственным интеллектом под названием NeMo Guardrails

28 апреля 202328 апр 2023

2 мин

В 2023 году почти все технологические гиганты вкладывают огромные деньги в развитие генеративного искусственного интеллекта. Но несмотря на случайные проблески гениальности, это новое поколение чат-ботов с искусственным интеллектом непоследовательно и склонно ко лжи. Nvidia уверена, что у нее есть решение в виде агента по надзору за ИИ под названием NeMo Guardrails. Компания говорит, что этот инструмент может ограничить ИИ, чтобы он не говорил и не делал ничего, чего мы не хотим. Это как ступенька на пути к законам робототехники Азимова.

Проблема современных больших языковых моделей (LLM) возникла не на пустом месте. Напротив, разработчики этих алгоритмов заранее знали, что их можно использовать в дурных целях. OpenAI, которая в сотрудничестве с Microsoft воплотила ChatGPT в жизнь, отказалась выпускать ранние версии своей модели GPT, поскольку она могла быть использована для создания дезинформации и других вредных текстов. И все же, последняя модель ChatGPT все равно много врет.

Тем временем Nvidia годами работала над своей системой NeMo, но в 2022 году поняла, что она может быть эффективна для LLM, таких как ChatGPT. В свете последних событий компания ускорила разработку, и NeMO Guardrails теперь доступен разработчикам как инструмент с открытым исходным кодом. У Nvidia также есть хостинговая версия NeMO в облачном сервисе NVIDIA AI Foundations. Компания заявляет, что он должен работать с любым LLM, поддерживаемым набором инструментов LangChain, который часто используется для подключения сторонних инструментов к моделям ИИ.

Разработчикам, которые хотят держать свой ИИ взаперти, доступны три типа ограждений. Существует тематическое ограждение, которое может помешать ИИ комментировать определенные темы. Ограждение безопасности гарантирует, что ИИ будет отвечать точной информацией, избегая конкретных формулировок и ограничиваясь надежными источниками. Наконец, ограждение безопасности ограничивает подключения к сторонним приложениям и службам.

Конечно, ничто из этого волшебным образом не сделает генеративный ИИ совершенно безопасным или надежным. Приложив достаточно усилий, пользователи смогли заставить ботов использовать расовые оскорбления, давать советы о незаконной деятельности и даже планировать гибель человечества. Тем не менее, Nvidia заявляет, что NeMo Guardrails будет продолжать улучшаться, и она уже добилась успеха в своем партнерстве с Zapier, которая использует NeMoin в качестве своих корпоративных инструментов искусственного интеллекта.

Этот агент по надзору необходим только потому, что LLM далеки от идеала и по мнению экспертов на это потребуются годы. Неважно, какие ограждения вы установите, эти алгоритмы все равно не знают, что является правдой - они знают только то, что видели раньше, а это значит, что они сделают все возможное, чтобы оправдать свои слова, даже если это ложь. Управление этими "галлюцинациями" искусственного интеллекта — горячая тема в среде разработчиков, но решение пока не найдено. NeMo Guardrails должен, по крайней мере теоретически, помочь разработчикам смягчить худшие проявления современных мощных систем искусственного интеллекта. И так будет до тех пор, пока мы не выясним, как закодировать первый закон: не навреди.