В чем суть?
Сегодня я решил поставить эксперимент, чтобы протестировать свежие (и не очень) модели ИИ в написании кода. Я буду оценивать как конечный результат, так и то, насколько сложно было применить решение от нейросети.
Я специально создал бота в Telegram, токен которого буду подставлять в код, который мне сгенерирует каждая ИИ.
Если вы обратите внимание, время отправки сообщений в чате с ботом может не соответствовать порядку участника, но пусть это не сбивает вас с толку: GigaChat и DeepSeek я добавил уже позже, чтобы турнир не получился слишком коротким. Результаты же для меня не были так уж очевидны, так что получилось интересно!
☢️ Осторожно: в этой статье будет очень много скриншотов! Надеюсь, качество материала от этого не пострадает.
Участники
- Участник 1. GigaCode 2.0 - Отечественный ИИ от Сбера
- Участник 2. DeepSeek - Простой и доступный ИИ от китайских разработчиков
- Участник 3. Copilot с GPT 5 - Совместное детище Microsoft и Open AI
📌 Давно хотел проверить Copilot в реальных условиях, а тут как раз вышел GPT 5. Так что не вижу смысла проверять ChatGPT отдельно.
- Участник 4. Grok 4 - Флагманская модель ИИ от Илона Маска
- Участник 5. Claude Sonnet 4 - Один из лучших ИИ для разработки
Техническое задание
Стек: .NET 9, C# 13.
Напиши Telegram бота, который получает на вход математическое выражение вида:
100+5*10+1
И пишет рузультат, в данном случае:
100+5*10+1 = 151
Вложенность математического выражения - любая, приоритет учитывается. Допустимые операторы: +, -, *, /, (, ).
Для простоты должно работать с положительными и отрицательными (включая унарный минус) целыми числами (хватит 32-битных чисел). В ответе допустимо дробное числое, например, при операции деления.
Ты должен предоставить мне только полученный код консольного приложения в указанном выше стеке.
Для проверки я буду давать им одни и те же задачи:
- (75+25)*111
- 10/3
- 1024/8
Просто потому что так можно увидеть все важные аспекты технического задания (скобки, дробная часть).
На чем проверяю
Среда разработки JetBrains Rider 2025.1.5 (самая актуальная на данный момент).
Я создал решение и консольные проекты на C# (.NET 9) под каждого участника.
Вы легко можете повторить эксперимент, если сомневаетесь в результатах!
Участник 1. GigaCode 2.0
Вы уже могли видеть мои статьи про GigaCode, и мое мнение было скорее положительным.
Изначально я не собирался включать GigaCode в свой эксперимент, видимо, не зря...
Даю задание и сразу получаю код.
Отлично? Как бы не так...
Вот только никакого(!!!) кода Telegram-бота он мне не сгенерировал, только математическую часть...
Честно говоря, я не ожидал такого результата, хоть и думал, что GigaCode недостаточно созрел для того, чтобы составить конкуренцию таким мощным ИИ.
Если бы он сказал мне, что ему просто не хватило места в сообщении, я бы попросил дать ответ за несколько сообщений, но нет. К сожалению, это дисквалификация.
Участник 2. DeepSeek
Знаете, я люблю DeepSeek. Звезд с неба он не хватает, но является неплохой "рабочей лошадкой". И, что важно лично для меня, с ним можно работать, не задумываясь о VPN (ни в коем случае не рекламирую этот способ!).
Даю задание и сразу получаю код, отлично.
К сожалению, код требует установки сторонних пакетов, поэтому нужны правки своими руками.
Но и после установки необходимого пакета, мы имеем неактуальную версию Telegram API. Поэтому код так же приходится править вручную.
Проверяем работу бота.
И здесь меня ждал приятный сюрприз: DeepSeek справился!
Участник 3. Copilot с моделью ChatGPT 5
Про Github Copilot я уже писал тут:
А про ChatGPT 5 еще не успел. Вышедшая на днях модель завялена как лучшая модель в мире, что тут же подхватили разные Telegram и Дзен каналы. На этот счет у меня есть сомнения, поэтому его участие даже не обсуждалось. Тем более, модель бесплатна (но есть лимиты).
Ввожу задание и сразу же получаю код.
Но только код бота, а к тому же и код настройки проекта! Это действительно очень полезно.
Что удивило, код не требует никаких сторонних пакетов.
Запускаю бота.
Все правильно! Дополнительно хочу заметить, что бот отвечает на мои сообщения (т.е. использует "реплаи"), а не просто пишет ответ в чат, это тоже приятно.
Участник 4. Grok 4
Grok 4 - платная модель от Илона Маска, как заявлено, она во всем лучше своей бесплатной прошлой версии Grok 3. Ради эксперимента я раскошелился на ~20$. До этого я работал только с Grok 3 и он показался мне весьма неплохим и даже стал некоторой золотой серединой между лимитами и качеством ответов.
Даю задание и сразу получаю... нет, ничего не получаю.
В режиме эксперта (по умолчанию используется в Grok 4) он просто не может дать никакого ответа. Ужас! Но если поставить смешанный режим, то ответ все же будет.
Отлично, ввожу код в Rider и вижу ожидаемое - нужна установка пакета.
Но и с установкой пакета Telegram Bot API проблемы не уходят.
Он так же, как и DeepSeek использует устаревший код, поэтому его нужно править руками. Вот только DeepSeek полностью бесплатный для использования, а за Grok 4 я заплатил! Как-то несерьезно.
После небольших манипуляций запускаю бота.
Все ответы правильные. Пусть вас не смущает, что в конце дробной части идет цифра 5 - с точки зрения хранения чисел в компьютерах, это допустимое поведение. Правда, другие ИИ с этой частью справились более прозрачно.
Участник 5. Claude Sonnet 4
Я уже сталкивался с Claude Sonnet 4, и у меня сложилось мнение, что Claude лучше всех заточен под написание кода, правда, ее серьезные лимиты не мотивировали меня использовать ее в повседневной рутине. В данный момент на выбор есть и платная модель Sonnet 4.1, о которой я узнал сегодня, но я пока еще не готов раскошелиться на 15€ (а когда потрачусь, обязательно протестирую и её тоже).
Даю задание и получаю код.
Отлично, ввожу код в Rider.
Ожидаемо, здесь нужно установить пакет Telegram Bot API, иначе код не запустится. Устанавливаю.
Здесь тоже устаревшие данные об этом пакете, так что нужны ручные правки. Исправляю и запускаю бота.
Вот уж чего я не ожидал, так это ошибки в банальном вычислении со скобками! Ну, и деление тут такое же, как и в Grok 4.
Заключение
Думаю, вы сами все видели.
✅ Модель Chat GPT 5 действительно показала наилучший результат в связке с Github Copilot, сгенерировав код, не требующий зависимостей, каких-либо исправлений с моей стороны, да и просто работающий без нареканий.
❌ На счет GigaChat у меня не было иллюзий, но я ожидал результата примерно на уровне, пусть и с ошибками, а не такое грубое нарушение задания.
❌ Claude Sonnet 4 и Grok 4 меня разочаровали, я ожидал большего (особенно от платного Grok!).
✅ DeepSeek приятно удивил, не ударив в грязь лицом.
На этом всё. Я впервые делаю статью в таком формате, поэтому не уверен, что такой материал получился легкочитаемым.
📌 Пишите свое мнение об этом импровизированном турнире в комментариях!