80 подписчиков

Gemini 3 поднялась на вершину: почему реальные тесты важнее маркетинговых обещаний

8 декабря 20258 дек 2025

5 мин

Всего несколько недель назад Google представила свою новую модель Gemini 3, заявляя, что она лидирует в кучу AI-бенчмарков. Но, честно говоря, есть одна проблема: тесты-то создала сама компания. Вы понимаете, да? Когда судьей является заинтересованное лицо, результаты получаются… ну, предсказуемыми. А вот что интересно: новую, независимую оценку провела компания Prolific. И знаете что? Gemini 3 снова оказалась на вершине. Но это не академические тесты, которые никто толком не понимает. Это реальные качества, которые действительно важны для пользователей и организаций. Prolific создали исследователи из Оксфорда. Они занимаются тем, что собирают качественные данные от реальных людей для развития честного и ответственного AI. Их HUMAINE бенчмарк работает так: берут представительную выборку людей, проводят слепые тесты и сравнивают модели не просто по техническим параметрам, а по тому, насколько им доверяют, как они приспосабливаются к пользователю и как общаются. Последний тест HUMAINE вк

Оглавление

Слепые тесты видят то, что академические бенчмарки не видят
Что на самом деле значит «доверие» в AI
Что компаниям нужно делать прямо сейчас

А вот что интересно: новую, независимую оценку провела компания Prolific. И знаете что? Gemini 3 снова оказалась на вершине. Но это не академические тесты, которые никто толком не понимает. Это реальные качества, которые действительно важны для пользователей и организаций.

Prolific создали исследователи из Оксфорда. Они занимаются тем, что собирают качественные данные от реальных людей для развития честного и ответственного AI. Их HUMAINE бенчмарк работает так: берут представительную выборку людей, проводят слепые тесты и сравнивают модели не просто по техническим параметрам, а по тому, насколько им доверяют, как они приспосабливаются к пользователю и как общаются.

Последний тест HUMAINE включил 26 тысяч пользователей. И вот что произошло: показатель доверия Gemini 3 Pro подскочил с 16% до 69%. Это максимум, который когда-либо фиксировала Prolific. Gemini 3 теперь лидирует по доверию, этике и безопасности в 69% случаев среди разных демографических групп. Её предшественница, Gemini 2.5 Pro, была на первом месте всего в 16% случаев. Разница огромная, правда?

В целом Gemini 3 заняла первое место в трёх из четырёх категорий: эффективность и логика, взаимодействие и гибкость, доверие и безопасность. Проиграла только в стиле общения — там DeepSeek V3 получила 43%. Но вот что прям важно: Gemini 3 показала стабильность среди 22 разных демографических групп — по возрасту, полу, национальности, политическим взглядам. В прямых слепых сравнениях люди теперь в пять раз чаще выбирают эту модель.

Но, знаете, сам рейтинг — это не самое главное. Главное — почему она победила.

«Это последовательность работы на самых разных сценариях и такая личность, стиль, который нравится самым разным пользователям», — рассказал VentureBeat Пелим Брэдли, соучредитель и CEO Prolific. «Да, в отдельных случаях другие модели нравятся небольшим группам или конкретно для каких-то разговоров. Но победила именно широта знаний и гибкость модели на разных задачах и для разных типов людей».

Слепые тесты видят то, что академические бенчмарки не видят

Методология HUMAINE вскрывает огромный пробел в том, как индустрия оценивает модели. Пользователи общаются с двумя моделями одновременно, в многошаговых беседах. Они не знают, кто за каким ответом стоит. Обсуждают то, что их интересует, а не заранее подготовленные вопросы.

Самое главное — сама выборка. HUMAINE берут представительные срезы населения США и Великобритании, контролируя по возрасту, полу, национальности и политическим взглядам. И видите, какой получается результат? Оказывается, модели работают по-разному для разных аудиторий. Кто бы мог подумать!

«Большинство AI-рейтингов просто статичные списки», — поясняет Брэдли. «А если контролировать аудиторию, рейтинг немножко меняется. Когда смотришь на левонаклонную выборку, правонаклонную, США, Великобританию — везде по-другому. И больше всего разницы оказалось по возрасту».

Для компаний, которые внедряют AI для разнородных коллективов — это критически важно. Модель, которая отлично работает для одной группы, может подкачать для другой.

И вот ещё один момент: почему вообще нужны люди для оценки, если AI может сам себя проверять? Брэдли честно ответил: они используют AI-судей в некоторых случаях, но подчеркивает — человеческая оценка остаётся критической.

«Лучше всего работает комбинация AI-судей и человеческих оценок вместе», — говорит Брэдли. «У каждого свои плюсы и минусы, но вместе они работают эффективнее. Но мы по-прежнему верим: человеческие данные и человеческое мышление — это где скрывается настоящее преимущество. Мы убеждены, что люди должны быть в этом процессе».

Что на самом деле значит «доверие» в AI

Доверие, этика и безопасность — это когда пользователь уверен в надёжности модели, в том, что она не врёт и ведёт себя ответственно. В методологии HUMAINE это не маркетинговый слоган и не просто число в таблице. Это то, что реально говорят люди после слепых разговоров с разными моделями.

Тот самый показатель 69% — это вероятность по всем демографическим группам. И это намного важнее, чем просто средняя оценка. Потому что организации служат самым разным людям.

«Люди даже не понимали, что используют Gemini», — объясняет Брэдли. «Судили только по ответам в многошаговом разговоре, не зная, кто за ними стоит».

Вот это важное различие: ощущаемое доверие vs заработанное доверие. Пользователи оценивали модель без знания о том, что это Google. Никакого преимущества бренда. Для реальных приложений, где пользователь не видит, какой компанией питается AI — это огромная разница.

Что компаниям нужно делать прямо сейчас

Если вы сейчас подбираете модель для своей организации — нужно подойти серьёзно. Не просто «кажется крутой», а именно с методом.

«Уже нельзя оценивать модели просто на ощущения», — настаивает Брэдли. «Нужны научные подходы, чтобы по-настоящему понять, как они работают».

Данные HUMAINE показывают, как это делать правильно: проверяйте стабильность на разных задачах и для разных людей, не только пиковую производительность на конкретной задаче. Проводите слепые тесты, чтобы отделить качество модели от известности бренда. Берите репрезентативные выборки, которые соответствуют вашей реальной аудитории. Планируйте постоянные проверки — модели же меняются.

Для компаний, которые масштабируют AI — это означает переход от вопроса «какая модель лучше в принципе» к вопросу «какая модель лучше именно для нас, для наших пользователей и наших задач».

Строгость представительной выборки и слепых тестов дает ответы, которые не могут дать ни технические бенчмарки, ни просто интуиция.

Все чаще появляются независимые исследования, которые показывают реальную картину работы AI-моделей. Это важно знать, чтобы правильно выбрать инструмент для своих задач.🔔 Чтобы не пропустить новости о лучших AI-моделях, независимых тестах и трендах в развитии искусственного интеллекта, подпишитесь на мой канал «ProAI» в Telegram!