11,6 тыс подписчиков

Google AI Overviews ошибается чаще, чем кажется

9 апреля9 апр

1 мин

Функция AI Overviews в поиске Google правильно отвечает примерно в 90% случаев, но из-за колоссального объёма запросов даже такой показатель оборачивается десятками миллионов некорректных ответов ежедневно. К такому выводу пришли журналисты The New York Times совместно со стартапом Oumi, протестировавших систему на бенчмарке SimpleQA от OpenAI с более чем 4000 проверяемых вопросов. При использовании Gemini 2.5 точность составила около 85%, после перехода на Gemini 3 выросла с 85% до 91%. В ходе проверки обнаружились проблемы с тем, как система объединяет данные из разных источников. Один из примеров — неверное определение даты превращения дома Боба Марли в музей, хотя корректные сведения присутствовали в исходных материалах. Это указывает на сложности не с поиском информации, а с её интерпретацией и выбором нужного факта среди нескольких источников. В Google с выводами не согласились. Представитель компании Нед Адрианс заявил, что сам бенчмарк SimpleQA может содержать неточности и не о

При использовании Gemini 2.5 точность составила около 85%, после перехода на Gemini 3 выросла с 85% до 91%.

В ходе проверки обнаружились проблемы с тем, как система объединяет данные из разных источников. Один из примеров — неверное определение даты превращения дома Боба Марли в музей, хотя корректные сведения присутствовали в исходных материалах.

Это указывает на сложности не с поиском информации, а с её интерпретацией и выбором нужного факта среди нескольких источников.

В Google с выводами не согласились. Представитель компании Нед Адрианс заявил, что сам бенчмарк SimpleQA может содержать неточности и не отражает реальные пользовательские запросы. По его словам, надёжнее ориентироваться на набор SimpleQA Verified, где вопросы проходят дополнительную проверку, а методика исследования не учитывает специфику реального поиска.

Суть происходящего при этом остаётся неизменной — чем шире масштаб применения любой ИИ-системы, тем весомее становится каждый процент ошибок, и единичные сбои на таком уровне неизбежно превращаются в массовое явление.

Оригинал публикации на сайте CISOCLUB: "ИИ-режим поиска Google даёт миллионы неточных ответов при высокой общей точности".

Гаджеты и электроника

5,73 млн интересуются