Добавить в корзинуПозвонить
Найти в Дзене
CISOCLUB

Google AI Overviews ошибается чаще, чем кажется

Функция AI Overviews в поиске Google правильно отвечает примерно в 90% случаев, но из-за колоссального объёма запросов даже такой показатель оборачивается десятками миллионов некорректных ответов ежедневно. К такому выводу пришли журналисты The New York Times совместно со стартапом Oumi, протестировавших систему на бенчмарке SimpleQA от OpenAI с более чем 4000 проверяемых вопросов. При использовании Gemini 2.5 точность составила около 85%, после перехода на Gemini 3 выросла с 85% до 91%. В ходе проверки обнаружились проблемы с тем, как система объединяет данные из разных источников. Один из примеров — неверное определение даты превращения дома Боба Марли в музей, хотя корректные сведения присутствовали в исходных материалах. Это указывает на сложности не с поиском информации, а с её интерпретацией и выбором нужного факта среди нескольких источников. В Google с выводами не согласились. Представитель компании Нед Адрианс заявил, что сам бенчмарк SimpleQA может содержать неточности и не о
   Изображение: Nathana Rebouças (unsplash)
Изображение: Nathana Rebouças (unsplash)

Функция AI Overviews в поиске Google правильно отвечает примерно в 90% случаев, но из-за колоссального объёма запросов даже такой показатель оборачивается десятками миллионов некорректных ответов ежедневно. К такому выводу пришли журналисты The New York Times совместно со стартапом Oumi, протестировавших систему на бенчмарке SimpleQA от OpenAI с более чем 4000 проверяемых вопросов.

При использовании Gemini 2.5 точность составила около 85%, после перехода на Gemini 3 выросла с 85% до 91%.

В ходе проверки обнаружились проблемы с тем, как система объединяет данные из разных источников. Один из примеров — неверное определение даты превращения дома Боба Марли в музей, хотя корректные сведения присутствовали в исходных материалах.

Это указывает на сложности не с поиском информации, а с её интерпретацией и выбором нужного факта среди нескольких источников.

В Google с выводами не согласились. Представитель компании Нед Адрианс заявил, что сам бенчмарк SimpleQA может содержать неточности и не отражает реальные пользовательские запросы. По его словам, надёжнее ориентироваться на набор SimpleQA Verified, где вопросы проходят дополнительную проверку, а методика исследования не учитывает специфику реального поиска.

Суть происходящего при этом остаётся неизменной — чем шире масштаб применения любой ИИ-системы, тем весомее становится каждый процент ошибок, и единичные сбои на таком уровне неизбежно превращаются в массовое явление.

Оригинал публикации на сайте CISOCLUB: "ИИ-режим поиска Google даёт миллионы неточных ответов при высокой общей точности".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: MAX | VK | Rutube | Telegram | Дзен | YouTube.