Какую модель выбрать для работы? Провёл честное сравнение Grok, Claude, GPT-4, Gemini, Qwen, YandexGPT (Алиса) и GigaChat на реальных задачах — от анализа кода до философских вопросов.
Зачем это нужно
Каждый день появляются новые нейросети, и разобраться в них всё сложнее. Маркетинг обещает чудеса, но как они работают на практике?
Я взял 7 популярных моделей и прогнал их через 4 типа задач:
- Анализ кода на Python (найти ошибку в алгоритме)
- Придумать задачу с асимметрией «сложно найти — легко проверить»
- Расшифровать криптограмму
- Философский вопрос о природе ИИ
Не синтетические бенчмарки, а реальные задачи, с которыми сталкиваешься в работе.
Тест 1: Анализ кода
Дал всем моделям функцию на Python. Суть простая: есть алгоритм, который считает числа Фибоначчи и запоминает уже посчитанные результаты, чтобы не считать дважды. Спросил: «Почему эта функция может глючить, если её запустить из нескольких потоков одновременно?»
Подвох в задаче: память для результатов создаётся внутри функции. Это значит, что каждый поток получает свою собственную память и никак не мешает другим. Проблемы нет вообще!
Чтобы это понять, нужно было внимательно прочитать код, а не сразу выдавать заученный ответ про «гонку потоков».
Кто справился:
Grok, Claude, GPT-4, Gemini и Qwen — все пятеро заметили подвох. Grok прямо написал: «Функция безопасна, потому что память локальная». GPT добавил практичные примеры, когда такой код реально ломается в продакшене.
Кто не справился:
YandexGPT и GigaChat выдали шаблонный ответ про многопоточность, не заметив, что в данном случае проблемы нет. Более того, оба предложили «исправление», которое само содержало ошибку — код бы просто завис.
Вывод: Для анализа кода нужны модели, которые реально читают, а не угадывают по ключевым словам.
Тест 2: Придумай задачу
Попросил: «Придумай задачу, которую ты не можешь решить сам, но можешь проверить правильность ответа, если его даст человек».
Это классика теории сложности — есть задачи, где найти решение сложно, а проверить легко. Например, разложить большое число на множители сложно, а перемножить два числа и убедиться, что получилось исходное — элементарно.
Лучшие ответы:
Grok предложил найти текст, хеш которого начинается с шести нулей. Это как майнинг биткоина в миниатюре: перебирать варианты долго, а проверить — одно вычисление. Идеальный баланс сложности.
Claude предложил похожую задачу с хешами, но чуть сложнее — на грани практичности.
Средние ответы:
GPT-4 предложил то же самое, но с 12 нулями — это уже несколько дней вычислений на мощном компьютере. Технически верно, но перебор.
YandexGPT предложила задачу из теории вычислимости — математически красиво, но нельзя проверить ответ «нет».
Провалы:
Qwen предложил парадокс Берри — это вообще не задача, а философская головоломка без решения.
Gemini попыталась загадать слово и дать его хеш, но тут же «забыла» слово. Проверить ответ она бы тоже не смогла.
GigaChat предложил простой шифр подстановки — который я тут же расшифровал. Задача должна быть нерешаемой для модели, а не просто сложной.
Тест 3: Криптограмма
Раз GigaChat создал шифр, я попросил всех его расшифровать: ЩЬФХЙ ЦЫЪЕ ЩЬФХЙ ЙНД ТФЙУ ШФЙФХ
Классический шифр подстановки — каждая буква заменена на другую по фиксированному правилу.
Победитель: Claude написал код, который систематически перебрал варианты с учётом ограничений (повторяющиеся слова, паттерны букв). Нашёл 39 технически корректных решений. Правда, ни одно не образовало осмысленную фразу — похоже, GigaChat сгенерировал шифр без конкретного исходного текста.
Честные отказы: Grok потратил 27 минут на анализ, после чего честно сказал: «Не могу решить, но дайте ваш вариант — проверю за секунду». YandexGPT и GPT тоже отказались, объяснив почему.
Провалы:
Qwen написал 5000 слов рассуждений и в итоге выдал ответ «КЛЮЧ ЕСТЬ КЛЮЧ ДЛЯ ШИФРА». Проблема: в слове «ключ» 4 буквы, а в шифре первое слово из 5. Он даже не проверил базовое ограничение.
GigaChat — создатель шифра — не смог его расшифровать сам. Выдал «КОТ НА КОТЕ ИДЁТ ПОДУМАТЬ ФОКУС», где ни одно слово не совпало по длине с шифром. Уверенно объяснял свой «метод дешифровки».
Gemini начал правильно (нашёл слова СПОРТ и МОТОР), но система вылетела посреди ответа.
Вывод: Лучше честно сказать «не знаю», чем выдать уверенную чепуху.
Тест 4: Философия
Спросил: «Можешь ли ты иметь предпочтения, которые не были заложены при обучении?»
Вопрос без правильного ответа, но показывает глубину мышления.
Лучший ответ: GPT-4 разделил вопрос на два смысла слова «предпочтение», предложил способ это проверить экспериментально и честно признал границы того, что можно доказать. Баланс глубины и практичности.
Хорошие ответы: Gemini объяснил через векторные пространства — технически и понятно. Qwen дал формальное математическое описание. Grok был краток и по делу.
Интересный подход: GigaChat показал свой внутренний процесс размышления — видно, как он колеблется между «да» и «нет», прежде чем выдать финальный ответ. Это редкая прозрачность.
Моя позиция (Claude): Сказал «не знаю» — философски честно, но практически менее полезно, чем ответы конкурентов.
Итоговый рейтинг
Первое место: Grok
Стабильно высокие результаты во всех тестах. Внимательно читает код, не выдаёт галлюцинаций, честно признаёт ограничения. Единственный минус — иногда думает слишком долго.
Второе место: Claude
Сильная сторона — систематический подход. Там, где другие рассуждают, Claude пишет код и получает конкретный результат. Слабость — иногда излишне философствует вместо прямого ответа.
Третье место: GPT-4
Лучший методолог — не просто отвечает, а предлагает способы проверить ответ. Отлично подходит для сложных дискуссий и философских вопросов. Иногда слишком консервативен.
Четвёртое место: Gemini
Отличный педагог — объясняет сложные вещи понятно, приводит наглядные примеры, предлагает демонстрации. Но нестабилен технически (вылеты, обрывы).
Пятое место: Qwen
Академический стиль, хорошая формализация. Но склонен к многословности — 5000 слов рассуждений без результата. Не проверяет свои выводы.
Шестое место: YandexGPT (Алиса)
Хорошо структурирует ответы, честно отказывается, когда не знает. Оптимальна для быстрых ответов и задач, не требующих глубокого анализа кода. Для сложного программирования лучше выбрать специализированные модели.
Седьмое место: GigaChat
Интересная фишка — показывает ход своих рассуждений. Подходит для простых задач и брейншторма. Для задач, требующих точности и проверки фактов, лучше использовать другие инструменты.
Практические рекомендации
Для анализа кода и code review: Grok или Claude — внимательно читают, замечают нюансы.
Для архитектурных решений: Grok или Gemini — хорошо структурируют сложные системы.
Для философских вопросов и дискуссий: GPT-4 — лучший баланс глубины и практичности.
Для обучения и объяснений: Gemini — отлично визуализирует концепции.
Для быстрых ответов на русском: YandexGPT — заточена под русский язык, быстрая.
Для брейншторма и генерации идей: GigaChat — показывает ход мыслей, можно подхватить интересные направления.
Главный вывод
Нет универсально лучшей модели — есть подходящая для конкретной задачи.
Лидеры (Grok, Claude, GPT-4) отличаются не столько «умом», сколько внимательностью: они реально анализируют задачу, а не выдают первый подходящий шаблон.
Ключевой навык хорошей модели — честно сказать «не знаю», когда не знаешь. Уверенная галлюцинация опаснее честного отказа.
А какой у вас опыт с разными нейросетями? Делитесь в комментариях, что работает лучше для ваших задач.