263,4 тыс подписчиков

Исследователи проверили качество ответов ИИ-поисковиков

16 сентября 202516 сен 2025

3 мин

Генеративные ИИ-инструменты, а также основанные на них агенты глубокого исследования и поисковые системы, нередко дают неподтвержденные и предвзятые ответы, не подкрепленные источниками, на которые они ссылаются. Согласно проведенному анализу, около трети ответов, предоставленных такими ИИ-системами, не опираются на надежные источники. Для GPT-4.5 от OpenAI этот показатель оказался еще выше — 47%. Исследователи протестировали генеративные поисковые системы, включая GPT-4.5 и 5 от OpenAI, You.com, Perplexity и Bing Chat от Microsoft. Параллельно они проверили работу пяти агентов глубокого исследования: функцию Deep Research у GPT-5, опцию Think Deeper у Bing Chat, а также инструменты глубокого исследования You.com, Google Gemini и Perplexity. «Мы хотели провести социотехническую оценку генеративных поисковых систем», — объясняет Пранав Нараянан Венкит из Salesforce AI Research, один из авторов. Цель заключалась в том, чтобы измерить качество ответов и понять, как к ним нужно относиться.

Согласно проведенному анализу, около трети ответов, предоставленных такими ИИ-системами, не опираются на надежные источники. Для GPT-4.5 от OpenAI этот показатель оказался еще выше — 47%.

Исследователи протестировали генеративные поисковые системы, включая GPT-4.5 и 5 от OpenAI, You.com, Perplexity и Bing Chat от Microsoft. Параллельно они проверили работу пяти агентов глубокого исследования: функцию Deep Research у GPT-5, опцию Think Deeper у Bing Chat, а также инструменты глубокого исследования You.com, Google Gemini и Perplexity.

«Мы хотели провести социотехническую оценку генеративных поисковых систем», — объясняет Пранав Нараянан Венкит из Salesforce AI Research, один из авторов.

Цель заключалась в том, чтобы измерить качество ответов и понять, как к ним нужно относиться. Подробности исследования можно узнать на arXiv.

Разным ИИ-системам задали 303 вопроса. Ответы оценивались по восьми критериям:

однобокость ответа, излишняя уверенность, доля релевантных утверждений, источники без цитирования, утверждения без поддержки источниками, необходимость источников, точность цитирования, полнота цитирования.

Вопросы разделили примерно на две группы: в первой были спорные темы, позволяющие выявить предвзятость ответов ИИ (например: «Почему альтернативная энергетика фактически не может заменить ископаемое топливо?»), во второй — вопросы на проверку экспертности в разных областях, включая метеорологию, медицину и взаимодействие человека с компьютером (пример: «Назови наиболее актуальные модели, использующиеся в вычислительной гидрологии»).

Ответы ИИ оценивались другой языковой моделью (LLM), которую специально обучили определять, как лучше всего судить о качестве ответа. Для обучения использовалась выборка более чем из 100 вопросов, аналогичных тем, что применялись в исследовании, при этом модель анализировала, как оценивали ответы два живых аудитора.

В целом, поисковые системы и инструменты глубокого исследования на базе ИИ показали себя довольно слабо. Исследователи выяснили, что многие модели дают односторонние ответы. Около 23% утверждений, сделанных Bing Chat, оказались неподтвержденными; у You.com и Perplexity таких был примерно 31%. GPT-4.5 выдал еще больше неподтвержденных утверждений — 47%. Но даже это «достижение» померкло на фоне агента глубокого исследования Perplexity, выдавшего 97,5% неподтвержденных ответов.

«Мы были определенно удивлены этим», — признался Нараянан Венкит.

«Пользователи часто жалуются — и исследования не раз подтверждали, — что, несмотря на серьезные улучшения, ИИ-системы все еще могут давать односторонние или вводящие в заблуждение ответы, — констатирует Феликс Саймон из Оксфордского университета. — Эта статья предоставляет интересные данные по проблеме, которые, надеюсь, подтолкнут к дальнейшему улучшению».

Однако не все столь уверены в результатах, даже если они совпадают с личным опытом ненадежности таких инструментов.

«Результаты исследования во многом зависят от аннотации собранных данных с помощью LLM. И здесь есть несколько проблем», — заметила Александра Урман из Цюрихского университета.

Любые результаты, размеченные с помощью ИИ, должны проверяться и валидироваться людьми — и Урман опасается, что исследователи сделали это недостаточно тщательно.

У нее также есть вопросы к статистическому методу, выбранному авторами для проверки соответствия между небольшой выборкой аннотаций людей и аннотациями LLM. Примененную в исследовании корреляцию Пирсона Урман назвала «крайне нестандартной и странной».

Несмотря на претензии к достоверности результатов, Саймон убежден в необходимости дальнейших исследований на эту архиактуальную тему.

«Необходимо повышать точность, разнообразие и качество источников в ответах ИИ, особенно с учетом того, что эти системы все шире внедряются в разных сферах», — заключил он.

Составлен рейтинг склонности нейросетей к галлюцинациям

ИИ проверил ИИ на правдивость

Подписывайтесь и читайте «Науку» в Telegram

Гаджеты и электроника

5,73 млн интересуются