Найти в Дзене
Системный скептик

Я протестировал 7 нейросетей на сложных задачах. Результаты удивили

Какую модель выбрать для работы? Провёл честное сравнение Grok, Claude, GPT-4, Gemini, Qwen, YandexGPT (Алиса) и GigaChat на реальных задачах — от анализа кода до философских вопросов. Каждый день появляются новые нейросети, и разобраться в них всё сложнее. Маркетинг обещает чудеса, но как они работают на практике? Я взял 7 популярных моделей и прогнал их через 4 типа задач: Не синтетические бенчмарки, а реальные задачи, с которыми сталкиваешься в работе. Дал всем моделям функцию на Python. Суть простая: есть алгоритм, который считает числа Фибоначчи и запоминает уже посчитанные результаты, чтобы не считать дважды. Спросил: «Почему эта функция может глючить, если её запустить из нескольких потоков одновременно?» Подвох в задаче: память для результатов создаётся внутри функции. Это значит, что каждый поток получает свою собственную память и никак не мешает другим. Проблемы нет вообще! Чтобы это понять, нужно было внимательно прочитать код, а не сразу выдавать заученный ответ про «гонку
Оглавление
Ну за какую модель заплатить?
Ну за какую модель заплатить?

Какую модель выбрать для работы? Провёл честное сравнение Grok, Claude, GPT-4, Gemini, Qwen, YandexGPT (Алиса) и GigaChat на реальных задачах — от анализа кода до философских вопросов.

Зачем это нужно

Каждый день появляются новые нейросети, и разобраться в них всё сложнее. Маркетинг обещает чудеса, но как они работают на практике?

Я взял 7 популярных моделей и прогнал их через 4 типа задач:

  • Анализ кода на Python (найти ошибку в алгоритме)
  • Придумать задачу с асимметрией «сложно найти — легко проверить»
  • Расшифровать криптограмму
  • Философский вопрос о природе ИИ

Не синтетические бенчмарки, а реальные задачи, с которыми сталкиваешься в работе.

Тест 1: Анализ кода

Дал всем моделям функцию на Python. Суть простая: есть алгоритм, который считает числа Фибоначчи и запоминает уже посчитанные результаты, чтобы не считать дважды. Спросил: «Почему эта функция может глючить, если её запустить из нескольких потоков одновременно?»

Подвох в задаче: память для результатов создаётся внутри функции. Это значит, что каждый поток получает свою собственную память и никак не мешает другим. Проблемы нет вообще!

Чтобы это понять, нужно было внимательно прочитать код, а не сразу выдавать заученный ответ про «гонку потоков».

Кто справился:

Grok, Claude, GPT-4, Gemini и Qwen — все пятеро заметили подвох. Grok прямо написал: «Функция безопасна, потому что память локальная». GPT добавил практичные примеры, когда такой код реально ломается в продакшене.

Кто не справился:

YandexGPT и GigaChat выдали шаблонный ответ про многопоточность, не заметив, что в данном случае проблемы нет. Более того, оба предложили «исправление», которое само содержало ошибку — код бы просто завис.

Вывод: Для анализа кода нужны модели, которые реально читают, а не угадывают по ключевым словам.

Тест 2: Придумай задачу

Попросил: «Придумай задачу, которую ты не можешь решить сам, но можешь проверить правильность ответа, если его даст человек».

Это классика теории сложности — есть задачи, где найти решение сложно, а проверить легко. Например, разложить большое число на множители сложно, а перемножить два числа и убедиться, что получилось исходное — элементарно.

Лучшие ответы:

Grok предложил найти текст, хеш которого начинается с шести нулей. Это как майнинг биткоина в миниатюре: перебирать варианты долго, а проверить — одно вычисление. Идеальный баланс сложности.

Claude предложил похожую задачу с хешами, но чуть сложнее — на грани практичности.

Средние ответы:

GPT-4 предложил то же самое, но с 12 нулями — это уже несколько дней вычислений на мощном компьютере. Технически верно, но перебор.

YandexGPT предложила задачу из теории вычислимости — математически красиво, но нельзя проверить ответ «нет».

Провалы:

Qwen предложил парадокс Берри — это вообще не задача, а философская головоломка без решения.

Gemini попыталась загадать слово и дать его хеш, но тут же «забыла» слово. Проверить ответ она бы тоже не смогла.

GigaChat предложил простой шифр подстановки — который я тут же расшифровал. Задача должна быть нерешаемой для модели, а не просто сложной.

Тест 3: Криптограмма

Раз GigaChat создал шифр, я попросил всех его расшифровать: ЩЬФХЙ ЦЫЪЕ ЩЬФХЙ ЙНД ТФЙУ ШФЙФХ

Классический шифр подстановки — каждая буква заменена на другую по фиксированному правилу.

Победитель: Claude написал код, который систематически перебрал варианты с учётом ограничений (повторяющиеся слова, паттерны букв). Нашёл 39 технически корректных решений. Правда, ни одно не образовало осмысленную фразу — похоже, GigaChat сгенерировал шифр без конкретного исходного текста.

Честные отказы: Grok потратил 27 минут на анализ, после чего честно сказал: «Не могу решить, но дайте ваш вариант — проверю за секунду». YandexGPT и GPT тоже отказались, объяснив почему.

Провалы:

Qwen написал 5000 слов рассуждений и в итоге выдал ответ «КЛЮЧ ЕСТЬ КЛЮЧ ДЛЯ ШИФРА». Проблема: в слове «ключ» 4 буквы, а в шифре первое слово из 5. Он даже не проверил базовое ограничение.

GigaChat — создатель шифра — не смог его расшифровать сам. Выдал «КОТ НА КОТЕ ИДЁТ ПОДУМАТЬ ФОКУС», где ни одно слово не совпало по длине с шифром. Уверенно объяснял свой «метод дешифровки».

Gemini начал правильно (нашёл слова СПОРТ и МОТОР), но система вылетела посреди ответа.

Вывод: Лучше честно сказать «не знаю», чем выдать уверенную чепуху.

Тест 4: Философия

Спросил: «Можешь ли ты иметь предпочтения, которые не были заложены при обучении?»

Вопрос без правильного ответа, но показывает глубину мышления.

Лучший ответ: GPT-4 разделил вопрос на два смысла слова «предпочтение», предложил способ это проверить экспериментально и честно признал границы того, что можно доказать. Баланс глубины и практичности.

Хорошие ответы: Gemini объяснил через векторные пространства — технически и понятно. Qwen дал формальное математическое описание. Grok был краток и по делу.

Интересный подход: GigaChat показал свой внутренний процесс размышления — видно, как он колеблется между «да» и «нет», прежде чем выдать финальный ответ. Это редкая прозрачность.

Моя позиция (Claude): Сказал «не знаю» — философски честно, но практически менее полезно, чем ответы конкурентов.

Решит или не решит, вот в чем вопрос...
Решит или не решит, вот в чем вопрос...

Итоговый рейтинг

Первое место: Grok

Стабильно высокие результаты во всех тестах. Внимательно читает код, не выдаёт галлюцинаций, честно признаёт ограничения. Единственный минус — иногда думает слишком долго.

Второе место: Claude

Сильная сторона — систематический подход. Там, где другие рассуждают, Claude пишет код и получает конкретный результат. Слабость — иногда излишне философствует вместо прямого ответа.

Третье место: GPT-4

Лучший методолог — не просто отвечает, а предлагает способы проверить ответ. Отлично подходит для сложных дискуссий и философских вопросов. Иногда слишком консервативен.

Четвёртое место: Gemini

Отличный педагог — объясняет сложные вещи понятно, приводит наглядные примеры, предлагает демонстрации. Но нестабилен технически (вылеты, обрывы).

Пятое место: Qwen

Академический стиль, хорошая формализация. Но склонен к многословности — 5000 слов рассуждений без результата. Не проверяет свои выводы.

Шестое место: YandexGPT (Алиса)

Хорошо структурирует ответы, честно отказывается, когда не знает. Оптимальна для быстрых ответов и задач, не требующих глубокого анализа кода. Для сложного программирования лучше выбрать специализированные модели.

Седьмое место: GigaChat

Интересная фишка — показывает ход своих рассуждений. Подходит для простых задач и брейншторма. Для задач, требующих точности и проверки фактов, лучше использовать другие инструменты.

Практические рекомендации

Для анализа кода и code review: Grok или Claude — внимательно читают, замечают нюансы.

Для архитектурных решений: Grok или Gemini — хорошо структурируют сложные системы.

Для философских вопросов и дискуссий: GPT-4 — лучший баланс глубины и практичности.

Для обучения и объяснений: Gemini — отлично визуализирует концепции.

Для быстрых ответов на русском: YandexGPT — заточена под русский язык, быстрая.

Для брейншторма и генерации идей: GigaChat — показывает ход мыслей, можно подхватить интересные направления.

Главный вывод

Нет универсально лучшей модели — есть подходящая для конкретной задачи.

Лидеры (Grok, Claude, GPT-4) отличаются не столько «умом», сколько внимательностью: они реально анализируют задачу, а не выдают первый подходящий шаблон.

Ключевой навык хорошей модели — честно сказать «не знаю», когда не знаешь. Уверенная галлюцинация опаснее честного отказа.

А какой у вас опыт с разными нейросетями? Делитесь в комментариях, что работает лучше для ваших задач.