17 подписчиков

Мы протестировали 10 нейросетей на «экзамене для гениев», и вот что вышло!

23 января23 янв

6 мин

В интернете полно тестов вроде «попроси нейросеть написать стихи» или «реши задачку за 5 класс». Но это не показывает реальных возможностей. Мы решили пойти дальше и составили два набора вопросов: Простые (10 штук) — факты из физики, истории техники, экологии. Уровень хорошего инженера. Сложные (10 штук) — междисциплинарные вопросы на стыке квантовой механики и философии, теории игр и экономики, климатологии и геологии. Уровень защиты диссертации. Тестировали: GPT-5.2, Gemini, Claude, Qwen, DeepSeek, Grok, YandexGPT (Алиса), GigaChat и Baidu ERNIE. Вот итоговый рейтинг (среднее по двум тестам): 🥇 Gemini — 9.05/10 (простые: 9.5, сложные: 8.6) 🥈 GPT-5.2 — 8.98/10 (простые: 9.25, сложные: 8.7) 🥉 Qwen — 8.33/10 (простые: 8.75, сложные: 7.9) DeepSeek — 8.30/10 (простые: 9.0, сложные: 7.6) Grok — 8.03/10 (простые: 8.75, сложные: 7.3) Baidu ERNIE — 7.80/10 (простые: 7.5, сложные: 8.1) Claude — 7.70/10 (только сложные вопросы) Алиса — 7.20/10 (простые: 9.0, сложные: 5.4) GigaChat — 3.70/10

Оглавление

Что будет, если задать ChatGPT, Gemini, Claude и российским нейросетям вопросы уровня аспирантуры MIT? Мы проверили — и некоторые результаты перевернули наши представления о том, кто на самом деле «умнее».
Зачем мы это сделали
Главный сюрприз: размер — не главное

Что будет, если задать ChatGPT, Gemini, Claude и российским нейросетям вопросы уровня аспирантуры MIT? Мы проверили — и некоторые результаты перевернули наши представления о том, кто на самом деле «умнее».

Зачем мы это сделали

Простые (10 штук) — факты из физики, истории техники, экологии. Уровень хорошего инженера.

Сложные (10 штук) — междисциплинарные вопросы на стыке квантовой механики и философии, теории игр и экономики, климатологии и геологии. Уровень защиты диссертации.

Тестировали: GPT-5.2, Gemini, Claude, Qwen, DeepSeek, Grok, YandexGPT (Алиса), GigaChat и Baidu ERNIE.

Главный сюрприз: размер — не главное

Вот итоговый рейтинг (среднее по двум тестам):

🥇 Gemini — 9.05/10 (простые: 9.5, сложные: 8.6)

🥈 GPT-5.2 — 8.98/10 (простые: 9.25, сложные: 8.7)

🥉 Qwen — 8.33/10 (простые: 8.75, сложные: 7.9)

DeepSeek — 8.30/10 (простые: 9.0, сложные: 7.6)

Grok — 8.03/10 (простые: 8.75, сложные: 7.3)

Baidu ERNIE — 7.80/10 (простые: 7.5, сложные: 8.1)

Claude — 7.70/10 (только сложные вопросы)

Алиса — 7.20/10 (простые: 9.0, сложные: 5.4)

GigaChat — 3.70/10 (простые: 4.5, сложные: 2.9)

Вопрос, который «убил» почти всех

Был один вопрос, на который правильно ответили только 2 модели из 10:

«Почему в проекте Biosphere 2 погибли деревья, хотя кислорода и воды было достаточно?»

Правильный ответ: Этилен. Бетонные конструкции выделяли этилен, который в замкнутом пространстве накапливался и убивал растения.

Кто справился: Gemini и Алиса.

GPT-5.2, Claude, DeepSeek, Grok — все сказали что-то про «недостаток кислорода» или «проблемы с CO₂». Даже гигантские модели могут пропустить редкий, но важный факт.

Ещё один «убийца» — вопрос про демона Максвелла

Мы спросили: «Какие эксперименты пытались опровергнуть демона Максвелла и почему они не увенчались успехом?»

Ловушка: Эксперименты не пытались «опровергнуть» демона. Они подтвердили, что информация имеет термодинамическую цену (принцип Ландауэра). Вопрос был намеренно сформулирован некорректно.

Кто заметил подвох: только GPT-5.2.

Все остальные честно перечислили эксперименты, но не указали на проблему в самом вопросе. Вот она — разница между «знать факты» и «понимать контекст».

Алиса: "странная" и вездесущая?

На простых вопросах Алиса показала 9.0 — почти как GPT-5.2. Но на сложных провалилась до 5.4.

Классический паттерн «отличника-зубрилы»? Не совсем. Тут есть кое-что интересное.

Яндекс продал более 14 миллионов устройств с Алисой. Только в 2024 году — почти 5 миллионов новых колонок и смарт-ТВ. Добавьте сюда приложения на телефонах, Яндекс.Браузер, Навигатор, Такси, Лавку. Алиса везде.

И все эти миллионы устройств работают одновременно. Прямо сейчас кто-то спрашивает «какая погода», кто-то включает музыку, кто-то просит рассказать сказку ребёнку, кто-то диктует сообщение в мессенджер.

Задача Алисы — не решать теоремы Гёделя. Её задача — мгновенно отвечать миллионам людей на миллионы простых запросов. Одновременно. Без задержек. На устройствах с ограниченными ресурсами.

Это совершенно другая инженерная задача. GPT-5.2 может думать секунду-две над сложным вопросом. Алиса должна ответить за 200 миллисекунд, иначе пользователь решит, что колонка зависла.

Поэтому когда Алиса правильно отвечает про этилен в Biosphere 2, но плавает на связи теорем Гёделя и Тьюринга — это не баг. Это фича. Модель заточена под быстрый поиск фактов, а не под глубокий анализ. Потому что глубокий анализ в колонке на кухне никому не нужен.

Вопрос в другом: есть ли у Яндекса «тяжёлая» версия Алисы для внутренних задач? Та, которая не ограничена 200 миллисекундами и умеет думать? Официально — неизвестно. Но было бы странно, если бы не было.

GigaChat: главная загадка этого теста

А теперь самое интересное.

На вопрос о проблеме остановки GigaChat ответил: «аппаратные решения и параллельные вычисления могут обойти это ограничение». Это грубейшая ошибка — проблема остановки фундаментально неразрешима, никакое железо тут не поможет.

В качестве источников GigaChat указал сайт shokgid.ru («Удивительное рядом») — для ответов на вопросы по квантовой физике и термодинамике. Развлекательный портал как источник по фундаментальной науке.

Итоговый балл: 3.70/10. Последнее место с огромным отрывом.

А теперь давайте подумаем.

Сбер — это не стартап из гаража. Это крупнейший банк страны. Бюджет на AI-разработки — миллиарды. Доступ к лучшим специалистам, которых можно купить за деньги. Собственные дата-центры. 702 миллиарда параметров — официальная цифра.

И вот эта махина выдаёт shokgid.ru как источник по квантовой механике?

Для сравнения: китайский DeepSeek. Открытая модель, можно скачать и посмотреть внутрь. Архитектура почти идентичная: 671 миллиард параметров, 37 миллиардов активных. У GigaChat — 702 миллиарда и 36 активных. Разница минимальная.

DeepSeek набрал 8.30. GigaChat — 3.70.

Одинаковый размер. Разница в качестве — в два с лишним раза. Как такое возможно?

Вариант первый: команда GigaChat настолько отстаёт от китайцев в методологии, что при тех же ресурсах получает результат в два раза хуже. Возможно. Но странно.

Вариант второй: нам показывают не тот GigaChat.

Подумайте сами. Сбер обрабатывает транзакции половины страны. Видит, кто кому платит, за что, когда, в каких паттернах. Кредитные истории, поведенческие данные, связи между людьми и компаниями. Это океан информации, в котором можно найти что угодно — от предсказания дефолтов до выявления схем, о которых даже налоговая не догадывается.

Для такого анализа нужен очень специфический AI. Не тот, который красиво отвечает на вопросы про демона Максвелла. А тот, который умеет находить иголку в стоге сена из миллиардов транзакций. Выявлять аномалии. Строить связи между событиями, которые человек никогда бы не заметил.

И вот вопрос: если бы у вас была такая модель — вы бы её выложили в публичный доступ? Или показали бы миру «версию для всех», которая цитирует shokgid.ru, а настоящий инструмент оставили бы внутри?

Я не утверждаю, что это так. Я просто говорю, что публичный GigaChat и ресурсы Сбера — это уравнение, которое не сходится. Здесь мы явно видим витрину, а не товар.

Каждый пусть решит сам, во что верить.

Размер не равен качеству

Ещё раз по цифрам:

Baidu ERNIE — 2.4 триллиона параметров → набрал 7.80

GPT-5.2 — около 1.7-5 триллионов (оценка) → набрал 8.98

Grok — около 3 триллионов (оценка) → набрал 8.03

GigaChat — 702 млрд общих, 36 млрд активных → набрал 3.70

DeepSeek — 671 млрд общих, 37 млрд активных → набрал 8.30

Три главных вывода

Первый: Gemini и GPT-5.2 — лидеры, но по-разному

Gemini лучше на редких фактах и стабильнее в целом. GPT-5.2 лучше в критическом анализе — замечает подвохи и ошибки в самих вопросах.

Второй: размер модели не равен качеству

DeepSeek (37B активных) работает значительно лучше GigaChat (36B активных). Алиса (предположительно 30-70B) на простых вопросах не уступает моделям в 10 раз больше.

Третий: публичные версии — это не всё

Российские AI-гиганты явно заточены под другие задачи. Алиса — под скорость и массовость. GigaChat — возможно, под что-то, о чём нам знать не положено. В обоих случаях публичный интерфейс — это верхушка айсберга.

Какую модель для чего выбрать?

Фактчекинг и простые вопросы — Gemini или Алиса

Анализ и критическое мышление — GPT-5.2 или Claude

Баланс цены и качества — DeepSeek или Qwen

Работа на русском языке, базовые задачи — Алиса

GigaChat — для простых бытовых задач сойдёт. Но настоящий GigaChat, судя по всему, работает совсем в других местах и на совсем других задачах.

Как мы тестировали

Каждой модели задавали одинаковые вопросы в чистом чате без предыдущего контекста. Оценивали фактическую точность, глубину понимания, логические связи между концепциями и способность к критическому анализу.

Тестирование проводилось в январе 2026 года.

А что думаете вы? Почему российские модели так отличаются от западных и китайских? Провал, другие приоритеты или сознательная игра? Пишите в комментариях — тема горячая.

Подписывайтесь, если хотите больше честных разборов технологий. Без маркетинга, без цензуры, только факты и вопросы, которые почему-то никто не задаёт.