Исследователи изучают возможность "необратимого ущерба", когда модели искусственного интеллекта генерируют ложные данные, включая проблемы, связанные с историческими данными и отсутствием оценки моделей.
Повышенная степень надежности больших языковых моделей (LLM) находится в центре внимания: новое исследование изучает способность таких больших языковых систем, как ChatGPT, к созданию достоверного, фактического контента.
Группа исследователей из Америки и Китая, которая включает в себя Microsoft, Йельский университет и другие учебные заведения, провела исследование больших языковых моделей в различных областях - от здравоохранения до финансов - с целью определения их надежности. По результатам исследований, проведенных в рамках проекта «Factuality in large Language Models: Knowledge, Retrieval and Domain-Specificity», было установлено, что проблемы с логикой и неверная интерпретация модели данных являются основными причинами возникновения ошибок в фактических данных.
Если допустить такие ошибки, то в результате они могут привести к тому, что чат-бот, который работает в сфере здравоохранения, предоставит пациенту неверную информацию. При этом система ИИ, ориентированная на финансовые результаты может предоставить неверные данные о стоимости акций и это приведет к тому, что инвестиции могут быть не очень успешными. Если такие ошибки будут допущены, они могут негативно сказаться на пользователях и компаниях, которые их используют, как это произошло в случае с Google, который запустил Bard, а чатбот допустил ошибку в одной из первых демонстраций.
В ходе исследования было установлено, что одна из проблем, влияющих на надежность больших языковых моделей, - использование устаревшей информации. Часть LLM имеет в своем распоряжении данные только до определенного момента, что вынуждает компании постоянно обновлять их.
Оценка перед развертыванием
Исследователи сообщают о том, что некоторые фактические ошибки, которые создаются LLM могут привести к «необратимому ущербу». Участники отметили, что перед тем, как внедрять подобные системы, компании должны тщательно изучить их фактологическую достоверность.
По их словам, использование такого метода исследования как FActScore позволит предприятиям измерить фактическую точность контента, который создается LLM. FActScore стал результатом совместной работы группы исследователей из Университета Вашингтона, Института искусственного интеллекта Аллена и группы других исследователей. Она является оценочной метрикой, которая используется для проверки фактической точности больших языковых моделей.
По словам исследователей, они также рассматривали возможность использования таких эталонов, как TruthfulQA, C-EVAL и RealTimeQA, которые способны количественно оценивать действительность. Системы такого типа имеют в большинстве своем открытый исходный код и могут быть легко доступны через GitHub. Это означает, что компании могут использовать бесплатные инструменты для проверки своих моделей.
При оценке фактологичности LLM, используются различные стратегии. Одна из них – это постоянное обучение и увеличение поиска, которые направлены на то, чтобы повысить качество изучения длинных знаний в LLM.
Мультиагентные системы
Показана зависимость от исторических данных, которые используются в обучении моделированию. Ранее в течение долгого времени базовая версия OpenAI's ChatGPT ограничивала доступ к данным до сентября 2021 года, однако в недавнем обновлении этот срок был увеличен до января 2022 года.
Установка системы искусственного интеллекта (ИИ), которая выдает результаты на основе устаревших данных, может привести к негативным последствиям для пользователей. Примером может служить система, которая не имеет возможности предоставить актуальную информацию. Это может привести к тому, что процесс развертывания будет неэффективным. Данные для обучения и принятия решений, используемые в моделях ИИ, могут быть устаревшими, поэтому они не смогут точно предугадать результаты, если данные, на которых они основаны, находятся в недостаточном состоянии. Применение в системе устаревших данных может привести к тому, что в ответах могут быть исторические искажения, связанные с данными прошлого.
Существует множество способов, позволяющих решить проблему. Например, использование вызовов API для повышения доступа модели к информации. Не смотря на это, данные системы не дают информации в реальном времени.
Данная статья посвящена обсуждению идеи использования мультиагентного подхода, при котором для получения результата используется не одна, а несколько систем искусственного интеллекта. Некогда команда, состоящая из исследователей из Google DeepMind и Массачусетского технологического института, придумала новую систему, назвав ее "Мультиагентным обществом".
Для повышения эффективности системы, китайские ученые предложили использовать мультиагентный подход. В статье было написано, что использование нескольких моделей в сочетании с общими или соревновательными усилиями может повысить степень достоверности «с помощью их коллективных способностей и помочь решить такие проблемы, как сбои в построении логических цепочек или забывание фактов».
В целях улучшения LLM, исследователи изучили несколько концепций мультиагентных систем. В их число входят дискуссии, в которых различные агенты LLM совместно обсуждают ответы и последовательно уточняют их, чтобы прийти к единому мнению. Этот подход может повысить уровень математических и логических способностей.
Есть также многоуровневая проверка фактов, при которой отдельные агенты LLM должны совместно разрабатывать гипотезы или проверять результаты в ходе совместной деятельности, чтобы выявить возможные ошибки и несоответствия в фактах.
Этот подход не зависит от модели, это означает, что пользователи могут использовать любой из существующих LLM как один из агентов в своем многообразном подходе.
Обучение по конкретным направлениям
Для гиперспецифического случая использования или сектора была обнаружена еще одна проблема, связанная с использованием более общей модели ИИ. Создатели предположили, что несмотря на то, что такая модель, как ChatGPT, является эффективной для решения общих задач и может быть полезна в некоторых областях, она не обладает необходимыми знаниями, которые характерны для конкретной области медицины.
Установлено, что публичные модели, которые имеют отношение к конкретным областям, все еще существуют. Примером может служить система управления задачами, разработанная компанией Harvey, которая применяется в сфере юридических услуг. Или Owl, которая была создана для решения проблем в сфере информационных технологий и BloombergGPT, которая прошла обучение на огромном количестве информации, предоставленной гигантом финансовых данных.
Проведенные авторами исследования показали, что LLM, которые направлены на конкретную область, дают более ощутимые результаты по сравнению с более общими LLM. Считается что модели, построенные с использованием богатых знаниями данных, обладают большей вероятностью быть достоверными.
По их мнению, возможно, что обучение и оценка с учетом особенностей домена могут «преобразовать» развертывание, как в случае с HuatuoGPT, медицинской языковой моделью, которая использует данные ChatGPT и врачей для принятия решений о проведении лечения.
Статья, представленная в обзоре, была посвящена обсуждению нескольких способов обучения и оценки больших языковых моделей с учетом особенностей домена. Подобным образом происходит и непрерывное предварительное обучение, в ходе которого специально подобранные модели постоянно получают поток информации о каждой конкретной области, с целью поддержания ее в актуальном состоянии. В случае необходимости, можно воспользоваться контролем над донастройкой, при которой наборы данных с метками по определенной области используются для улучшения работы модели на специальных задачах, таких как ответы на юридические вопросы.
Согласно данным, описанным в статье, предприятия могут использовать различные эталоны для оценки моделей и методов, которые подходят к конкретной области, например CMB для медицины или LawBench для юридических задач.