Знаете, сколько всяких тестов создано для оценки нейросетей? Вагон и маленькая тележка. Есть бенчмарки для кода, есть для следования инструкциям, есть для веб-серфинга и работы с инструментами. Но вот что странно: почти все они измеряют, может ли модель выполнить задачу, а не то, насколько правдивой будет её ответ. То есть генерирует ли она объективно верную информацию, особенно когда это касается графиков, диаграмм и изображений.
А ведь в юриспруденции, финансах и медицине точность это вообще святое. И до сих пор не было стандартного способа измерить фактическую правильность ответов. Серьёзный пробел, скажу я вам.
Но вот: Google представила FACTS Benchmark Suite. Это комплексная система оценки, которая закрывает эту брешь. Просто взяла и сделала то, что надо было сделать давно.
В исследовании предложено интересное разделение: «контекстная фактичность» (когда модель опирается на предоставленные данные) и «фактичность мировых знаний» (когда извлекает информацию из памяти или интернета). Два разных сценария, два разных вызова.
Результаты? Ну, Gemini 3 Pro занимает первое место, но вот что по-настоящему важно: ни одна модель — ни Gemini 3 Pro, ни GPT-5, ни Claude 4.5 Opus — не преодолела отметку 70% точности. Представляете? Это сигнал техническим лидерам: эпоха «доверяй, но проверяй» далеко не закончилась.
Из чего состоит тест
FACTS не просто Q&A. Это четыре разных испытания, каждое моделирует реальную проблему, с которой сталкиваются разработчики в боевых условиях:
- Параметрический тест (внутренние знания): может ли модель ответить на вопросы-мелочи, используя только данные из обучения?
- Поисковый тест (использование инструментов): может ли она эффективно искать в веб и синтезировать живую информацию?
- Мультимодальный тест (зрение): может ли понять диаграммы, схемы и изображения без галлюцинаций?
- Тест на привязку к контексту (работа с текстом): придерживается ли она исходного текста и не добавляет лишнее?
Google выложила 3513 примеров в открытый доступ, а остальной датасет хранит в приватной части Kaggle. Зачем? Чтобы никто не натренировался на тестовых данных — это называется «контаминацией» и портит всю статистику.
Рейтинг: битва за сотые доли процента
На первом месте Gemini 3 Pro с 68,8%. Затем Gemini 2.5 Pro (62,1%) и GPT-5 (61,8%). Но если копнуть глубже — вот это интересно. Вот таблица:
Модель
FACTS Score
Поиск (RAG)
Мультимод (зрение)
Gemini 3 Pro
68,8
83,8
46,1
Gemini 2.5 Pro
62,1
63,9
46,9
GPT-5
61,8
77,7
44,1
Grok 4
53,6
75,3
25,7
Claude 4.5 Opus
51,3
73,2
39,2
Для тех, кто строит системы: зияющий разрыв между поиском и памятью
Если вы разрабатываете RAG (систему с использованием внешних источников данных), то поисковый бенчмарк — это ваш главный KPI. И вот что показывает статистика: огромная разница между тем, что модель «знает» из обучения и тем, что может «найти» в интернете.
Gemini 3 Pro? 83,8% в поиске, но только 76,4% на параметрическом тесте. Вывод очевиден: не полагайтесь на внутреннюю память модели для критичных фактов. Вообще. Это не рекомендация — это необходимость.
Строишь чат для внутренних знаний компании? Подключи к нему поисковый инструмент или векторную базу. Это не опция, это единственный способ добиться приемлемой точности в боевых условиях.
Мультимодальность: красная лампочка на панели
Вот что меня по-настоящему смутило. Показатели на мультимодальных задачах — просто ужасные. По всем моделям. Даже лучшая — Gemini 2.5 Pro — едва достигла 46,9%. Задачи были не сложные: чтение графиков, интерпретация диаграмм, определение объектов.
Менее 50% точности — это не «готово для боевого применения». Это красный флаг.
Если ваш roadmap включает автоматическую обработку счетов или анализ финансовых графиков без участия человека — вы вносите огромные ошибки в процесс. Не верьте обещаниям. По крайней мере, пока не добавите проверку человеком.
Почему это важно именно сейчас
Этот benchmark станет стандартом при выборе моделей для enterprise. Когда будете искать модель для своего проекта, не смотрите на общий балл. Смотрите на то, что именно вам нужно:
- Чат поддержки? Обратите внимание на Score привязки к контексту: проверьте, что бот не выдумывает, опираясь только на документы компании. (Кстати, Gemini 2.5 Pro здесь обогнала даже 3 Pro: 74,2 против 69,0).
- Ассистент для исследований? Приоритет — результаты в поиске.
- Инструмент анализа изображений? Действуйте с большой осторожностью.
Google сама признала: все модели остались ниже 70%, впереди ещё много работы. Вывод простой: AI становится умнее, но далеко не безошибочнее. Проектируйте свои системы с расчетом, что в трети случаев модель просто может ошибиться. Это факт, а не пессимизм.
Хотите разбираться в том, как правильно оценивать и выбирать AI-модели для своих проектов? Не пропускайте новые статьи и исследования.🔔 Подписывайтесь на канал «ProAI» в Telegram, чтобы быть в курсе бенчмарков, рейтингов и практических советов по внедрению AI!