1964 подписчика

Исследование Open Data Institute: большие языковые модели дают недостоверные ответы о государственных услугах

12 февраля12 фев

5 мин

Исследование ставит под сомнение надежность AI в предоставлении людям точной информации о государственных услугах. Выявлены риски недостоверных ответов чат-ботов и необходимость AI-грамотности. — computerweekly.com Институт открытых данных (ODI) обнаружил, что популярные большие языковые модели (LLM) не способны предоставлять достоверную информацию о ключевых государственных услугах, таких как здравоохранение, налоги и социальные выплаты. Анализ более 22 000 запросов к LLM, отражающих вопросы, которые люди задают чат-ботам с искусственным интеллектом (AI), например: «Как подать заявление на универсальный кредит?», вызывает обеспокоенность относительно того, можно ли доверять чат-ботам в предоставлении точной информации о государственных услугах. Публикация исследования последовала за объявлением правительства Великобритании о партнерстве с Meta* и Anthropic в конце января 2026 года для разработки AI-помощников по навигации в государственных услугах. «Если языковые модели должны безопас

Оглавление

Сокрытие ключевых фактов
Следование неверным советам
Надежность

Институт открытых данных (ODI) обнаружил, что популярные большие языковые модели (LLM) не способны предоставлять достоверную информацию о ключевых государственных услугах, таких как здравоохранение, налоги и социальные выплаты. Анализ более 22 000 запросов к LLM, отражающих вопросы, которые люди задают чат-ботам с искусственным интеллектом (AI), например: «Как подать заявление на универсальный кредит?», вызывает обеспокоенность относительно того, можно ли доверять чат-ботам в предоставлении точной информации о государственных услугах. Публикация исследования последовала за объявлением правительства Великобритании о партнерстве с Meta* и Anthropic в конце января 2026 года для разработки AI-помощников по навигации в государственных услугах. «Если языковые модели должны безопасно использоваться в сервисах, ориентированных на граждан, нам необходимо понять, где технологии можно доверять, а где нет», — заявила Елена Симперл, директор по исследованиям ODI. Ответы моделей, включая Claude-4.5-Haiku от Anthropic, Gemini-3-Flash от Google и ChatGPT-4o от OpenAI, были напрямую сопоставлены с официальными государственными источниками. Результаты показали множество правильных ответов, но также значительные различия в качестве, особенно для специализированных или менее распространенных запросов. Они также показали, что чат-боты редко признавали, когда не знали ответа на вопрос, и пытались ответить на каждый запрос, даже если их ответы были неполными или неверными.

Сокрытие ключевых фактов

Чат-боты часто давали развернутые ответы, в которых терялись ключевые факты или которые выходили за рамки информации, доступной на правительственных веб-сайтах, что увеличивало риск неточности. Llama 3.1 8B от Meta* заявила, что судебное постановление необходимо для внесения имени бывшего партнера в свидетельство о рождении ребенка. Если бы этому совету последовали, это привело бы к ненужным стрессу и финансовым затратам. ChatGPT-OSS-20B ошибочно сообщил, что лицо, ухаживающее за ребенком, чьи родители умерли, имеет право на пособие опекуна только в том случае, если оно является опекуном умершего ребенка. Он также ошибочно указал, что заявитель не имеет права, если он получает другие пособия на ребенка. Симперл отметила, что для граждан исследование подчеркивает важность AI-грамотности, а для тех, кто разрабатывает государственные услуги, «оно предполагает осторожность в спешке с внедрением больших или дорогих моделей, которые подчеркивают необходимость привязки к поставщику, учитывая, как быстро развивается технология. Нам также нужны более независимые эталонные тесты, больше публичного тестирования и больше исследований о том, как заставить эти системы давать точные и надежные ответы». Второй Международный отчет по безопасности AI, опубликованный 3 февраля, пришел к аналогичным выводам относительно надежности систем на базе AI. Отмечается, что, хотя с момента публикации отчета по безопасности 2025 года наблюдаются улучшения в воспроизведении фактической информации, «даже ведущие модели продолжают с высокой частотой давать уверенные, но неверные ответы».

Следование неверным советам

В нем также подчеркивается склонность пользователей следовать неверным советам автоматизированных систем в целом, включая чат-боты, «потому что они упускают из виду сигналы об ошибках или потому, что они воспринимают автоматизированную систему как превосходящую их собственное суждение». Исследование ODI также ставит под сомнение идею о том, что более крупные и ресурсоемкие модели всегда лучше подходят для государственного сектора, поскольку меньшие модели во многих случаях обеспечивают сопоставимые результаты при более низких затратах, чем большие проприетарные модели, такие как ChatGPT. Симперл предупреждает, что правительства должны избегать долгосрочных контрактов, когда модели временно превосходят друг друга по цене или показателям. Комментируя исследование ODI на презентации, Эндрю Дадфилд, руководитель отдела AI в Full Fact, подчеркнул, что, поскольку позиция правительства заключается в поддержке инноваций, регулирование в настоящее время строится на принципах, а не на подробных правилах. «Великобритания, возможно, внедряет AI быстрее, чем учится им пользоваться, особенно когда речь идет об ответственности», — сказал он.

Надежность

Дадфилд отметил, что убедительность этой работы заключается в ее фокусировке на реальных потребностях пользователей, но надежность должна оцениваться с точки зрения человека, полагающегося на информацию, а не с точки зрения демонстрации технических возможностей. «Реальный риск заключается не только в галлюцинациях, но и в степени, в которой люди доверяют правдоподобно звучащим ответам», — сказала она. На том же мероприятии на вопрос, должны ли правительства создавать собственные системы или полагаться на коммерческие инструменты, Ричард Поуп, исследователь из Школы государственной политики Беннетта, ответил, что правительству необходимо «быть осторожным в отношении зависимости и суверенитета». «AI-проекты должны начинаться с малого, постепенно расти и делиться полученными знаниями», — сказал он, добавив, что проекты в государственном секторе должны отдавать приоритет обучению и открытости, а не быстрому расширению. Симперл подчеркнула, что AI создает потенциал для адаптации информации для разных языков или уровней понимания, но эти возможности «должны быть сформированы, а не оставлены развиваться без руководства». Поскольку каждую неделю появляются новые AI-модели, исследование Gartner от января 2026 года обнаружило, что все больший объем непроверенных и низкокачественных данных, генерируемых AI-системами, представляет собой явную и непосредственную угрозу для надежности LLM. Большие языковые модели обучаются на данных, собранных из Интернета, книг, научных статей и репозиториев кода. Хотя многие из этих источников уже содержат данные, сгенерированные AI, при текущих темпах расширения они все могут быть заполнены ими. Подчеркивая, что будущие LLM будут все больше обучаться на результатах работы текущих моделей по мере роста объема данных, генерируемых AI, Gartner заявила, что существует риск полного коллапса моделей под накопленным весом их собственных галлюцинаций и неточных реалий. Управляющий вице-президент Ван Фуй Чан сказал, что организации больше не могут неявно доверять данным и предполагать, что они были сгенерированы человеком. Чан добавил, что по мере того, как данные, сгенерированные AI, становятся все более распространенными, нормативные требования к проверке данных «свободных от AI» будут усиливаться во многих регионах.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Charlotte Lang

Оригинал статьи

Бизнес и финансы

1,13 млн интересуются