Генеративные ИИ-инструменты, а также основанные на них агенты глубокого исследования и поисковые системы, нередко дают неподтвержденные и предвзятые ответы, не подкрепленные источниками, на которые они ссылаются. Согласно проведенному анализу, около трети ответов, предоставленных такими ИИ-системами, не опираются на надежные источники. Для GPT-4.5 от OpenAI этот показатель оказался еще выше — 47%. Исследователи протестировали генеративные поисковые системы, включая GPT-4.5 и 5 от OpenAI, You.com, Perplexity и Bing Chat от Microsoft. Параллельно они проверили работу пяти агентов глубокого исследования: функцию Deep Research у GPT-5, опцию Think Deeper у Bing Chat, а также инструменты глубокого исследования You.com, Google Gemini и Perplexity. «Мы хотели провести социотехническую оценку генеративных поисковых систем», — объясняет Пранав Нараянан Венкит из Salesforce AI Research, один из авторов. Цель заключалась в том, чтобы измерить качество ответов и понять, как к ним нужно относиться.