Найти в Дзене
1000Li

Краткость - сестра таланта, или как я поставил не на ту лошадь... vibe-code тест для ИИ гигантов🧠

Задумка Столько ИИ появилось в последнее время. У меня глаза разбегаются. А у вас? Одни пишут музыку, другие оживляют картины, третьи играют на бирже. Как понять, действительно ли каждый из них по-своему решает задачи или они клоны? Нам бы выбрать для себя лучший. Или хотя бы лучший по каким то параметрам. Бота для скальпирования на форексе пока писать не буду и проверю их через простой vibe-код тест на языке Python. Для нашей статьи возьму самые популярные: YandexGPT, GigaChat, Claude, DeepSeek и ChatGPT, и попрошу их справиться с обычной рутиной даже не программиста, а человека, работающего с большими массивами данных. Пусть напишут работающий код, который решит нудную проблему некоего спеца. А я посмотрю, протестирую, сравню. Disclaimer. Сразу оговорюсь, из личного опыта я делал ставку на Claude от Anthropic, при работе "максимум в одном промте - максимум в одном ответе", у меня с ним было лучшее взаимопонимание. Представьте специалиста по кибербезопасности, который каждый ден
Оглавление

Задумка

Столько ИИ появилось в последнее время. У меня глаза разбегаются. А у вас? Одни пишут музыку, другие оживляют картины, третьи играют на бирже.

Как понять, действительно ли каждый из них по-своему решает задачи или они клоны? Нам бы выбрать для себя лучший. Или хотя бы лучший по каким то параметрам. Бота для скальпирования на форексе пока писать не буду и проверю их через простой vibe-код тест на языке Python.

Для нашей статьи возьму самые популярные: YandexGPT, GigaChat, Claude, DeepSeek и ChatGPT, и попрошу их справиться с обычной рутиной даже не программиста, а человека, работающего с большими массивами данных. Пусть напишут работающий код, который решит нудную проблему некоего спеца.

А я посмотрю, протестирую, сравню.

Disclaimer. Сразу оговорюсь, из личного опыта я делал ставку на Claude от Anthropic, при работе "максимум в одном промте - максимум в одном ответе", у меня с ним было лучшее взаимопонимание.

Фантазируем задачу

Представьте специалиста по кибербезопасности, который каждый день ищет скрытые Wi-Fi сети в офисе. Чтобы облегчить задачу, он использует специальную программу Airodump из системы Kali Linux. Проблема в том, что после сканирования получаются большие таблицы с кучей непонятных данных (неудобных для анализа), особенно в крупных офисных зданиях.

Чтобы справиться с этим, он приходит к базовому решению: программа на Python с простым интерфейсом, которая автоматически преобразует сырые данные в удобочитаемый формат Excel, находит повторяющиеся точки доступа и даёт возможность закрыть приложение одним нажатием кнопки.

Формируем промт

Начнем.

Сперва унифицирую наш тест. Поэтому параметры будут следующие:

  • Один промт
  • Одна IDE - PyCharm
  • Одно окружение
  • Две дополнительных библиотеки Pandas (для работы с табличными данными) и Openpyxl (для работы с файлами формата Excel).

Что буду оценивать:

  1. Скорость ответа чат-бота
  2. Количество строк сгенерированного кода
  3. Тест PyCharm: количество проблем (Errors + Warnings + Weak warnings + Typos) при первом открытии файла
  4. Запускается ли скрипт в PyCharm (без внесения единого исправления)
  5. Работоспособность программ (все ли кнопки срабатывают, получаются ли нужные данные на выходе)

Да начнется VIBE-ТЕСТ!

Код против кода. Машина против машины.

Промт, который был передан всем ИИ, для выполнения.
Промт, который был передан всем ИИ, для выполнения.

Скорость ответа чат-бота

И так первый тест - скорость, с которой мне ответили на данный промт генеративные модели.

Итоги теста (меньше — лучше)

  • YandexGPT ~30 сек
  • GigaChat ~30 сек
  • Claude ~до 60 сек
  • ChatGPT ~до 60 сек
  • DeepSeek ~1 мин 30 сек

Короткие выводы

  • Россияне стартуют быстро: YandexGPT и GigaChat почти синхронно уложились в полминуты — прекрасный результат.
  • Западные модели стабильны, но не спешат: Claude и ChatGPT чаще держатся в районе минуты — неплохо, особенно если учесть, что их трафик приходится пускать в обход.
  • DeepSeek в этом заходе пришёл последним — ~90 секунд. Возможно, дело в очередях/нагрузке. Все-таки он первым появился в открытом доступе у россиян на смартфонах.

Итак, отдаю по 3 балла YandexGPT и GigaChat, по 2 балла - Claude и ChatGPT, 1 балл уходит DeepSeek.

Результаты теста на скорость
Результаты теста на скорость

Количество строк сгенерированного кода

Теперь сравню более интересный параметр, сколько же букав нам сгенерировали наши подопытные.

Итоги теста (здесь как в школе - за сочинение поставлю высший балл тем, у кого сочинение более подробное и длинное)

  • ChatGPT ~307 строк
  • Claude ~259 строк
  • DeepSeek ~172 строки
  • ЯндексGPT ~98 строк
  • GigaChat ~71 строка

Важно: больше строк ≠ лучше код. Часто выигрывают лаконичность и структурность. Но как «термометр» стиля это показательно: ChatGPT и Claude тяготеют к подробной архитектуре и комментариям, а ЯндексGPT и GigaChat — к более компактным решениям. DeepSeek — золотая середина.

Что же, отдаю по 3 балла Claude и ChatGPT, 2 балла - DeepSeek , 1 балл уходит YandexGPT и GigaChat.

Результаты теста на количество строк кода
Результаты теста на количество строк кода

Тест PyCharm: количество проблем

Тут я устроил моделям «медосмотр» в PyCharm. Ничего хитрого: открыл их код и посмотрел, сколько проблем PyCharm найдёт сразу.

Напомню: собрал одно общее окружение: Python 3.10 и всего две библиотеки — ни плагинов, ни линтеров, ни магии. Чтобы никому не было обидно.

Для каждого участника завел отдельный .py-файл, вставил сгенерированный код и открыл его в PyCharm. Дальше смотрю на тот самый «светофор» в правом верхнем углу — Inspection Widget.

PyCharm показывает четыре вида «наблюдений»:

Errors (ошибки), Warnings (предупреждения), Weak warnings (слабые предупреждения), Typos (опечатки). Записал все четыре и сложил — получилась метрика «сколько проблем IDE видит при первом открытии файла».

В общем тест простой, как дверной глазок: заглянул — и сразу видно, насколько код «чист» для IDE без дополнительных настроек.

Итог инспекции PyCharm: ошибок (Errors) не нашлось ни у кого. Но:

  • ChatGPT: 1 предупреждение, 4 слабых предупреждения, 15 опечаток.
  • Claude: 0 предупреждений, 2 слабых предупреждения, 5 опечаток.
  • DeepSeek: 1 предупреждение, 4 слабых предупреждения, 4 опечатки.
  • ЯндексGPT: 0 предупреждений, 1 слабое предупреждение, 0 опечаток.
  • GigaChat: 0 предупреждений, 0 слабых предупреждений, 0 опечаток.

Вывод в двух словах: по «чистоте» файла лидирует GigaChat, за ним ЯндексGPT; больше всего правок по орфографии просит код от ChatGPT.

Отдаю 3 балла GigaChat, по 2 балла - YandexGPT и Claude, по 1 баллу уходит DeepSeek и ChatGPT.

Скажу честно, GigaChat меня очень удивил, ведь его код самый короткий - около 70 строк. Крайне интересно, действительно ли он сработает.

Запускается ли скрипт в PyCharm

Сейчас также крайне простой тест. Я по очереди запускаю каждый из скриптов. Кто запустится получит 1 балл. Кто выдаст ошибку - 0 баллов.

Напомню, я не вносил ни единого изменения. Запуск сразу после копи-паста с чат-бота.

Барабанная дробь...

... и запустились ВСЕ!

Здесь я тоже был крайне удивлен. Еще 1 год назад с настройками "из коробки", скорее всего, большая часть скриптов показала хотя бы маленькую ошибку. А сейчас, в конце 2025 года, - нет. Модели растут, развиваются.

А мы... Учимся пользоваться. Точно усилит сильных, расслабит слабых)

Итак, все участники получают по 1 баллу.

Неудивительно, что GigaChat c минималистичным кодом выдает минималистичный интерфей, впрочем как и русский брат YandexGPT
Неудивительно, что GigaChat c минималистичным кодом выдает минималистичный интерфей, впрочем как и русский брат YandexGPT

Работоспособность программ

Запуститься — полдела. Теперь проверю, делают ли кнопки то, что они обещали и не пытаются ли прикинуться валенком.

Что именно смотрю на реальном CSV из Airodump (с переносами строк и «грязными» данными):

  • Excel-кнопка: создаётся ли output.xlsx, корректно ли очищаются переносы строк и открывается ли файл без ругани.
  • Поиск дубликатов BSSID: появляется ли duplicates.xlsx, правильно ли считаются повторы.
  • Выход: закрывается ли окно без зависаний.

Схема баллов (максимум — 3):

  • 3 балла — всё по ТЗ: обе функции работают стабильно, интерфейс ведёт себя прилично.
  • 2 балла — задачи решаются, но есть шероховатости (например, неуклюжие сообщения или единичные огрехи в данных).
  • 1 балл — работает только часть функционала.

ChatGPT

Все кнопки отработали корректно. Файл csv трансформирован. Excel открывается без ошибок. Дубли обнаружены. Выход сработал без проблем.

Из личных замечаний. Кто знает, тот знает, но в csv из Airodump две таблицы помещены сразу в один текстовый файл. Для себя разделяйте их в разные листы Excel. Здесь же я специально это не оговаривал в промте. В общем, нижняя таблица с подключенными устройствами в пустых полях везде получила надписи None, что создало много визуального шума. Мне не очень понравилось.

Итог (работоспособность): 3/3 балла. Функционал выполнен полностью.

Claude

Друзья, тут меня ждало разочарование. Мой фаворит не смог переварить файл csv. Кроме кнопки выход, ничего не сработало. Вылезла ошибка формата csv файла.

Для себя я проверил: небольшие изменения в коде, либо открытие файла в Excel, а потом принудительное сохранение с указанием разделителей также в csv решает проблему. Но провал, есть провал... 0 баллов.

Увы... Увы для моей ставки, но не для нашего тестирования, которое продолжается.

DeepSeek

Тут повторилась история один в один: DeepSeek тоже не смог «переварить» наш CSV. Из трёх кнопок работала только «Выход» — всё остальное уткнулось в ошибку формата файла.

Если говорить языком моей шкалы «работоспособности», где важно, чтобы обе функции честно отработали на реальном CSV, увы, DeepSeek тоже остаётся без очков за этот раунд.

Зато цвета более красивые
Зато цвета более красивые

YandexGPT

К сожалению, та же история: YandexGPT не справился с CSV. Работала только кнопка «Выход», а при попытке обработки выскакивает ошибка формата файла. Небольшой фикс кода всё лечит, но это вне правил теста. В зачёт — 0 баллов за работоспособность в этом раунде.

GigaChat

Ну, дружок GigaChat, хоть ты меня не расстраивай! Проверяем.

Все кнопки отработали корректно. CSV преобразован, Excel открывается без ошибок, дубликаты найдены, выход без сюрпризов.

Нюансы по сравнению с ChatGPT:

  • Пустые колонки. GigaChat не подставляет None в пустые ячейки, оставляет их пустыми.
  • Поток действий. У ChatGPT после трансформации Excel-файл остаётся «на руках», кнопка поиска дублей сразу использует результат и сохраняет его.
  • У GigaChat шаг чуть менее плавный: он просит указать Excel-файл, в котором искать дубликаты. Не ошибка, но UX-чуть более «ритуальный», чем у GPT.

Итог (работоспособность): 3/3 балла. Функционал выполнен полностью; мелкие различия в удобстве сценария с единственным справившимся конкурентом.

Итоги

-12

Сумма очков:

GigaChat — 14

ChatGPT — 11

Claude — 9

YandexGPT — 8

DeepSeek — 6

Торжественно объявляю победителя моего Стресс-Vibecode-Теста - это GigaChat!

Дааа... Вот тут вспомните название статьи. Реально, краткость - сестра таланта. Я не ожидал победы GigaChat. Я отлично отношусь к отечественным генеративным моделям, но ставил на Claude.

Спасибо тебе, Сбер. Еще один балл в копилку твоим менеджерам. Развивайте дальше GigaChat, уверен, в скором времени он станет отличной, а то и более продуктивной версией западных аналогов. И никакой рекламы! Клянусь!

Спасибо, что дочитали! Если было полезно — ставьте лайк, подписывайтесь и пишите в комментариях, что хотели бы увидеть в следующих статьях!

Удачи в ваших начинаниях!

👉 Мой Дзен
👉
Telegram-канал

#vibecoding #ИИ #Python #PyCharm #CSV #Tkinter #pandas #openpyxl #генеративныеМодели #GigaChat #ChatGPT #Claude #YandexGPT #DeepSeek #тесты #сравнение #дзен