Функция AI Overviews в поиске Google правильно отвечает примерно в 90% случаев, но из-за колоссального объёма запросов даже такой показатель оборачивается десятками миллионов некорректных ответов ежедневно. К такому выводу пришли журналисты The New York Times совместно со стартапом Oumi, протестировавших систему на бенчмарке SimpleQA от OpenAI с более чем 4000 проверяемых вопросов. При использовании Gemini 2.5 точность составила около 85%, после перехода на Gemini 3 выросла с 85% до 91%. В ходе проверки обнаружились проблемы с тем, как система объединяет данные из разных источников. Один из примеров — неверное определение даты превращения дома Боба Марли в музей, хотя корректные сведения присутствовали в исходных материалах. Это указывает на сложности не с поиском информации, а с её интерпретацией и выбором нужного факта среди нескольких источников. В Google с выводами не согласились. Представитель компании Нед Адрианс заявил, что сам бенчмарк SimpleQA может содержать неточности и не о