Найти тему
OVERCLOCKERS.RU

Исследователи разрабатывают инструмент для оценки качества ИИ

Оглавление

Шумиха вокруг ChatGPT выдвинула на первый план тему искусственного интеллекта и его впечатляющего потенциала. В то же время обеспечение качества и поддержание контроля над системами искусственного интеллекта становятся все более важными — особенно когда эти системы берут на себя ответственные задачи. В конце концов, результаты чат-бота основаны на огромных объемах текстовых данных из Интернета.

Тем не менее такие системы, как ChatGPT, вычисляют только наиболее вероятный ответ на вопрос и выдают его как факт. Исследователи из Института интеллектуального анализа и информационных систем Fraunhofer IAIS продемонстрируют различные инструменты оценки и процессы, которые могут быть использованы для изучения систем искусственного интеллекта на предмет недостатков на протяжении всего их жизненного цикла и защиты от рисков искусственного интеллекта на выставке Hannover Messe 2023 с 17 по 21 апреля (на объединенном стенде Fraunhofer A12 в зале 16).

Эти инструменты помогают разработчикам и органам технической инспекции систематически оценивать качество искусственного интеллекта, чтобы убедиться, что им можно доверять.

-2

Как показывает вездесущность нового приложения OpenAI для искусственного интеллекта ChatGPT в средствах массовой информации, искусственный интеллект достиг впечатляющего уровня. Чат-бот, обученный работе с данными и текстом со всего Интернета, отвечает на вопросы ответами, которые трудно, если вообще возможно, отличить от текста, написанного людьми. Это делает систему искусственного интеллекта достойной рассмотрения для широкого спектра задач в компаниях, будь то маркетинговые задачи, автоматизация обработки запросов клиентов или создание медиаконтента.

Инструменты оценки

Однако публичный дискурс также призывает к осторожности. Критика направлена, среди прочего, на отсутствие прозрачности, например, в отношении источников, из которых чат-бот генерирует свои ответы. В частности, прогнозы зависят от качества входных данных.

«Это показывает, насколько важно иметь возможность систематически оценивать качество приложений с искусственным интеллектом. Особенно это актуально в чувствительных областях применения, таких как медицинская диагностика, управление персоналом, финансы, приложения, используемые правоохранительными органами, или критически важные для безопасности области, где системы искусственного интеллекта должны обеспечивать абсолютно надежные результаты. Закон об искусственном интеллекте — европейский проект регулирования систем искусственного интеллекта — относит эти примеры к категории высокого риска и даже требует обязательной оценки в этих случаях», – говорит д-р Максимилиан Поречкин, руководитель отдела безопасного искусственного интеллекта и сертификации искусственного интеллекта в Fraunhofer IAIS в Санкт-Августине, Германия.

«На данный момент компаниям, разрабатывающим или развертывающим приложения искусственного интеллекта с высоким уровнем риска, срочно необходимо решить, как они могут обеспечить качество своих приложений».

Вместе со своей командой он разрабатывает инструменты и методы оценки, которые исследуют и оценивают приложения искусственного интеллекта с точки зрения их надежности, справедливости, робастности, прозрачности и защиты данных. Инструменты могут быть объединены модульным образом и встроены в программную платформу.

Разработка прототипов инструментов оценки осуществляется при поддержке Министерства экономики, промышленности и борьбы с изменением климата. Базовые критерии оценки основаны на Каталоге оценки искусственного интеллекта, структурированном практическом руководстве, опубликованном исследователями Fraunhofer IAIS в 2021 году.

Проверка нейронных сетей на наличие уязвимостей

Необходимость в таких инструментах оценки проистекает из того факта, что приложения с искусственным интеллектом часто существенно отличаются от обычного программного обеспечения. Последний программируется на основе правил, что позволяет систематически проверять его функциональность, т.е. правильность ответов или выходных данных по отношению к входным данным. Для приложений с искусственным интеллектом этих процедур, как правило, недостаточно, особенно если они основаны на нейронных сетях.

Инструмент ScrutinAI, разработанный Fraunhofer IAIS, позволяет тестировщикам систематически искать уязвимости в нейронных сетях и таким образом оценивать качество приложений искусственного интеллекта. Одним из конкретных примеров является приложение с искусственным интеллектом, которое обнаруживает аномалии и заболевания на изображениях компьютерной томографии. Вопрос здесь заключается в том, выявляются ли все типы отклонений одинаково хорошо, или некоторые из них лучше, чем другие.

Этот анализ помогает тестировщикам оценить, подходит ли приложение с искусственным интеллектом для предполагаемого контекста использования. В то же время разработчики также могут извлечь выгоду, имея возможность выявлять недостатки в своих системах искусственного интеллекта на ранней стадии и принимать соответствующие меры по улучшению, такие как дополнение обучающих данных конкретными примерами.

Вполне возможно, что этот инструмент можно было бы использовать во многих областях. Приведенный выше пример можно было бы легко заменить приложением искусственного интеллекта, которое обнаруживает уязвимости и дефекты материалов в критически важных для безопасности компонентах. В этом случае также важно установить, все ли уязвимости обнаруживаются одинаково хорошо или существуют области предполагаемой области применения, для которых производительность приложения искусственного интеллекта недостаточна. «Речь всегда идет об обнаружении недостатков в нейронной сети, хотя и в разных контекстах», – объясняет Поречкин.

Оценка неопределенностей

Метод неопределенности, разработанный Fraunhofer IAIS и интегрированный в фреймворк, предоставляет нейронным сетям функцию оценки качества, зависящую от ситуации, которую они могут использовать для оценки собственной уверенности в отношении сделанного прогноза.

«При высокоавтоматизированном принятии решений ИИ важно иметь возможность оценить, насколько ИИ уверен в получаемом результате. Приведем конкретный пример: автономное транспортное средство должно быть способно надежно обнаруживать объекты и людей в окружающей среде, чтобы оно могло соответствующим образом реагировать на них. Оценка неопределенности помогает определить, насколько вы можете доверять системному решению, нужно ли активировать определенные резервные механизмы или окончательное решение должен принять человек», – говорит Поречкин.

Таким образом, метод неопределенности представляет собой важный строительный блок для защиты приложений искусственного интеллекта, чтобы их можно было использовать в чувствительных прикладных контекстах.

Сравнение моделей искусственного интеллекта

Наконец, инструмент бенчмаркинга используется для определения того, какая модель искусственного интеллекта лучше всего подходит для конкретной задачи. «Существует избыток новых приложений искусственного интеллекта, которые компании могут интегрировать в свои процессы. Бенчмаркинг помогает им сделать правильный выбор», – говорит исследователь.

Инструмент обладает функциональными возможностями, среди прочего, для измерения достоверности наборов обучающих данных. Это имеет решающее значение в кадровой индустрии, например, когда речь заходит о приложениях искусственного интеллекта, которые помогают в подборе новых сотрудников. В таких ситуациях приложение искусственного интеллекта необходимо обучать с использованием сбалансированных и статистически репрезентативных наборов данных, чтобы избежать ущемления интересов групп людей и обеспечить равные возможности.

На объединенном стенде Fraunhofer A12 в зале 16 Ганноверской ярмарки команда Fraunhofer IAIS будет использовать интерактивный демонстратор из медицинской области, чтобы показать, как качество приложения искусственного интеллекта можно систематически оценивать с помощью инструментов оценки. Кроме того, заинтересованные стороны узнают, как оценка искусственного интеллекта может быть проведена в компаниях на практике.

📃 Читайте далее на сайте