Что будет, если задать ChatGPT, Gemini, Claude и российским нейросетям вопросы уровня аспирантуры MIT? Мы проверили — и некоторые результаты перевернули наши представления о том, кто на самом деле «умнее».
Зачем мы это сделали
В интернете полно тестов вроде «попроси нейросеть написать стихи» или «реши задачку за 5 класс». Но это не показывает реальных возможностей. Мы решили пойти дальше и составили два набора вопросов:
Простые (10 штук) — факты из физики, истории техники, экологии. Уровень хорошего инженера.
Сложные (10 штук) — междисциплинарные вопросы на стыке квантовой механики и философии, теории игр и экономики, климатологии и геологии. Уровень защиты диссертации.
Тестировали: GPT-5.2, Gemini, Claude, Qwen, DeepSeek, Grok, YandexGPT (Алиса), GigaChat и Baidu ERNIE.
Главный сюрприз: размер — не главное
Вот итоговый рейтинг (среднее по двум тестам):
🥇 Gemini — 9.05/10 (простые: 9.5, сложные: 8.6)
🥈 GPT-5.2 — 8.98/10 (простые: 9.25, сложные: 8.7)
🥉 Qwen — 8.33/10 (простые: 8.75, сложные: 7.9)
DeepSeek — 8.30/10 (простые: 9.0, сложные: 7.6)
Grok — 8.03/10 (простые: 8.75, сложные: 7.3)
Baidu ERNIE — 7.80/10 (простые: 7.5, сложные: 8.1)
Claude — 7.70/10 (только сложные вопросы)
Алиса — 7.20/10 (простые: 9.0, сложные: 5.4)
GigaChat — 3.70/10 (простые: 4.5, сложные: 2.9)
Вопрос, который «убил» почти всех
Был один вопрос, на который правильно ответили только 2 модели из 10:
«Почему в проекте Biosphere 2 погибли деревья, хотя кислорода и воды было достаточно?»
Правильный ответ: Этилен. Бетонные конструкции выделяли этилен, который в замкнутом пространстве накапливался и убивал растения.
Кто справился: Gemini и Алиса.
GPT-5.2, Claude, DeepSeek, Grok — все сказали что-то про «недостаток кислорода» или «проблемы с CO₂». Даже гигантские модели могут пропустить редкий, но важный факт.
Ещё один «убийца» — вопрос про демона Максвелла
Мы спросили: «Какие эксперименты пытались опровергнуть демона Максвелла и почему они не увенчались успехом?»
Ловушка: Эксперименты не пытались «опровергнуть» демона. Они подтвердили, что информация имеет термодинамическую цену (принцип Ландауэра). Вопрос был намеренно сформулирован некорректно.
Кто заметил подвох: только GPT-5.2.
Все остальные честно перечислили эксперименты, но не указали на проблему в самом вопросе. Вот она — разница между «знать факты» и «понимать контекст».
Алиса: "странная" и вездесущая?
На простых вопросах Алиса показала 9.0 — почти как GPT-5.2. Но на сложных провалилась до 5.4.
Классический паттерн «отличника-зубрилы»? Не совсем. Тут есть кое-что интересное.
Яндекс продал более 14 миллионов устройств с Алисой. Только в 2024 году — почти 5 миллионов новых колонок и смарт-ТВ. Добавьте сюда приложения на телефонах, Яндекс.Браузер, Навигатор, Такси, Лавку. Алиса везде.
И все эти миллионы устройств работают одновременно. Прямо сейчас кто-то спрашивает «какая погода», кто-то включает музыку, кто-то просит рассказать сказку ребёнку, кто-то диктует сообщение в мессенджер.
Задача Алисы — не решать теоремы Гёделя. Её задача — мгновенно отвечать миллионам людей на миллионы простых запросов. Одновременно. Без задержек. На устройствах с ограниченными ресурсами.
Это совершенно другая инженерная задача. GPT-5.2 может думать секунду-две над сложным вопросом. Алиса должна ответить за 200 миллисекунд, иначе пользователь решит, что колонка зависла.
Поэтому когда Алиса правильно отвечает про этилен в Biosphere 2, но плавает на связи теорем Гёделя и Тьюринга — это не баг. Это фича. Модель заточена под быстрый поиск фактов, а не под глубокий анализ. Потому что глубокий анализ в колонке на кухне никому не нужен.
Вопрос в другом: есть ли у Яндекса «тяжёлая» версия Алисы для внутренних задач? Та, которая не ограничена 200 миллисекундами и умеет думать? Официально — неизвестно. Но было бы странно, если бы не было.
GigaChat: главная загадка этого теста
А теперь самое интересное.
На вопрос о проблеме остановки GigaChat ответил: «аппаратные решения и параллельные вычисления могут обойти это ограничение». Это грубейшая ошибка — проблема остановки фундаментально неразрешима, никакое железо тут не поможет.
В качестве источников GigaChat указал сайт shokgid.ru («Удивительное рядом») — для ответов на вопросы по квантовой физике и термодинамике. Развлекательный портал как источник по фундаментальной науке.
Итоговый балл: 3.70/10. Последнее место с огромным отрывом.
А теперь давайте подумаем.
Сбер — это не стартап из гаража. Это крупнейший банк страны. Бюджет на AI-разработки — миллиарды. Доступ к лучшим специалистам, которых можно купить за деньги. Собственные дата-центры. 702 миллиарда параметров — официальная цифра.
И вот эта махина выдаёт shokgid.ru как источник по квантовой механике?
Для сравнения: китайский DeepSeek. Открытая модель, можно скачать и посмотреть внутрь. Архитектура почти идентичная: 671 миллиард параметров, 37 миллиардов активных. У GigaChat — 702 миллиарда и 36 активных. Разница минимальная.
DeepSeek набрал 8.30. GigaChat — 3.70.
Одинаковый размер. Разница в качестве — в два с лишним раза. Как такое возможно?
Вариант первый: команда GigaChat настолько отстаёт от китайцев в методологии, что при тех же ресурсах получает результат в два раза хуже. Возможно. Но странно.
Вариант второй: нам показывают не тот GigaChat.
Подумайте сами. Сбер обрабатывает транзакции половины страны. Видит, кто кому платит, за что, когда, в каких паттернах. Кредитные истории, поведенческие данные, связи между людьми и компаниями. Это океан информации, в котором можно найти что угодно — от предсказания дефолтов до выявления схем, о которых даже налоговая не догадывается.
Для такого анализа нужен очень специфический AI. Не тот, который красиво отвечает на вопросы про демона Максвелла. А тот, который умеет находить иголку в стоге сена из миллиардов транзакций. Выявлять аномалии. Строить связи между событиями, которые человек никогда бы не заметил.
И вот вопрос: если бы у вас была такая модель — вы бы её выложили в публичный доступ? Или показали бы миру «версию для всех», которая цитирует shokgid.ru, а настоящий инструмент оставили бы внутри?
Я не утверждаю, что это так. Я просто говорю, что публичный GigaChat и ресурсы Сбера — это уравнение, которое не сходится. Здесь мы явно видим витрину, а не товар.
Каждый пусть решит сам, во что верить.
Размер не равен качеству
Ещё раз по цифрам:
Baidu ERNIE — 2.4 триллиона параметров → набрал 7.80
GPT-5.2 — около 1.7-5 триллионов (оценка) → набрал 8.98
Grok — около 3 триллионов (оценка) → набрал 8.03
GigaChat — 702 млрд общих, 36 млрд активных → набрал 3.70
DeepSeek — 671 млрд общих, 37 млрд активных → набрал 8.30
Три главных вывода
Первый: Gemini и GPT-5.2 — лидеры, но по-разному
Gemini лучше на редких фактах и стабильнее в целом. GPT-5.2 лучше в критическом анализе — замечает подвохи и ошибки в самих вопросах.
Второй: размер модели не равен качеству
DeepSeek (37B активных) работает значительно лучше GigaChat (36B активных). Алиса (предположительно 30-70B) на простых вопросах не уступает моделям в 10 раз больше.
Третий: публичные версии — это не всё
Российские AI-гиганты явно заточены под другие задачи. Алиса — под скорость и массовость. GigaChat — возможно, под что-то, о чём нам знать не положено. В обоих случаях публичный интерфейс — это верхушка айсберга.
Какую модель для чего выбрать?
Фактчекинг и простые вопросы — Gemini или Алиса
Анализ и критическое мышление — GPT-5.2 или Claude
Баланс цены и качества — DeepSeek или Qwen
Работа на русском языке, базовые задачи — Алиса
GigaChat — для простых бытовых задач сойдёт. Но настоящий GigaChat, судя по всему, работает совсем в других местах и на совсем других задачах.
Как мы тестировали
Каждой модели задавали одинаковые вопросы в чистом чате без предыдущего контекста. Оценивали фактическую точность, глубину понимания, логические связи между концепциями и способность к критическому анализу.
Тестирование проводилось в январе 2026 года.
А что думаете вы? Почему российские модели так отличаются от западных и китайских? Провал, другие приоритеты или сознательная игра? Пишите в комментариях — тема горячая.
Подписывайтесь, если хотите больше честных разборов технологий. Без маркетинга, без цензуры, только факты и вопросы, которые почему-то никто не задаёт.