Задумка
Столько ИИ появилось в последнее время. У меня глаза разбегаются. А у вас? Одни пишут музыку, другие оживляют картины, третьи играют на бирже.
Как понять, действительно ли каждый из них по-своему решает задачи или они клоны? Нам бы выбрать для себя лучший. Или хотя бы лучший по каким то параметрам. Бота для скальпирования на форексе пока писать не буду и проверю их через простой vibe-код тест на языке Python.
Для нашей статьи возьму самые популярные: YandexGPT, GigaChat, Claude, DeepSeek и ChatGPT, и попрошу их справиться с обычной рутиной даже не программиста, а человека, работающего с большими массивами данных. Пусть напишут работающий код, который решит нудную проблему некоего спеца.
А я посмотрю, протестирую, сравню.
Disclaimer. Сразу оговорюсь, из личного опыта я делал ставку на Claude от Anthropic, при работе "максимум в одном промте - максимум в одном ответе", у меня с ним было лучшее взаимопонимание.
Фантазируем задачу
Представьте специалиста по кибербезопасности, который каждый день ищет скрытые Wi-Fi сети в офисе. Чтобы облегчить задачу, он использует специальную программу Airodump из системы Kali Linux. Проблема в том, что после сканирования получаются большие таблицы с кучей непонятных данных (неудобных для анализа), особенно в крупных офисных зданиях.
Чтобы справиться с этим, он приходит к базовому решению: программа на Python с простым интерфейсом, которая автоматически преобразует сырые данные в удобочитаемый формат Excel, находит повторяющиеся точки доступа и даёт возможность закрыть приложение одним нажатием кнопки.
Формируем промт
Начнем.
Сперва унифицирую наш тест. Поэтому параметры будут следующие:
- Один промт
- Одна IDE - PyCharm
- Одно окружение
- Две дополнительных библиотеки Pandas (для работы с табличными данными) и Openpyxl (для работы с файлами формата Excel).
Что буду оценивать:
- Скорость ответа чат-бота
- Количество строк сгенерированного кода
- Тест PyCharm: количество проблем (Errors + Warnings + Weak warnings + Typos) при первом открытии файла
- Запускается ли скрипт в PyCharm (без внесения единого исправления)
- Работоспособность программ (все ли кнопки срабатывают, получаются ли нужные данные на выходе)
Да начнется VIBE-ТЕСТ!
Код против кода. Машина против машины.
Скорость ответа чат-бота
И так первый тест - скорость, с которой мне ответили на данный промт генеративные модели.
Итоги теста (меньше — лучше)
- YandexGPT ~30 сек
- GigaChat ~30 сек
- Claude ~до 60 сек
- ChatGPT ~до 60 сек
- DeepSeek ~1 мин 30 сек
Короткие выводы
- Россияне стартуют быстро: YandexGPT и GigaChat почти синхронно уложились в полминуты — прекрасный результат.
- Западные модели стабильны, но не спешат: Claude и ChatGPT чаще держатся в районе минуты — неплохо, особенно если учесть, что их трафик приходится пускать в обход.
- DeepSeek в этом заходе пришёл последним — ~90 секунд. Возможно, дело в очередях/нагрузке. Все-таки он первым появился в открытом доступе у россиян на смартфонах.
Итак, отдаю по 3 балла YandexGPT и GigaChat, по 2 балла - Claude и ChatGPT, 1 балл уходит DeepSeek.
Количество строк сгенерированного кода
Теперь сравню более интересный параметр, сколько же букав нам сгенерировали наши подопытные.
Итоги теста (здесь как в школе - за сочинение поставлю высший балл тем, у кого сочинение более подробное и длинное)
- ChatGPT ~307 строк
- Claude ~259 строк
- DeepSeek ~172 строки
- ЯндексGPT ~98 строк
- GigaChat ~71 строка
Важно: больше строк ≠ лучше код. Часто выигрывают лаконичность и структурность. Но как «термометр» стиля это показательно: ChatGPT и Claude тяготеют к подробной архитектуре и комментариям, а ЯндексGPT и GigaChat — к более компактным решениям. DeepSeek — золотая середина.
Что же, отдаю по 3 балла Claude и ChatGPT, 2 балла - DeepSeek , 1 балл уходит YandexGPT и GigaChat.
Тест PyCharm: количество проблем
Тут я устроил моделям «медосмотр» в PyCharm. Ничего хитрого: открыл их код и посмотрел, сколько проблем PyCharm найдёт сразу.
Напомню: собрал одно общее окружение: Python 3.10 и всего две библиотеки — ни плагинов, ни линтеров, ни магии. Чтобы никому не было обидно.
Для каждого участника завел отдельный .py-файл, вставил сгенерированный код и открыл его в PyCharm. Дальше смотрю на тот самый «светофор» в правом верхнем углу — Inspection Widget.
PyCharm показывает четыре вида «наблюдений»:
Errors (ошибки), Warnings (предупреждения), Weak warnings (слабые предупреждения), Typos (опечатки). Записал все четыре и сложил — получилась метрика «сколько проблем IDE видит при первом открытии файла».
В общем тест простой, как дверной глазок: заглянул — и сразу видно, насколько код «чист» для IDE без дополнительных настроек.
Итог инспекции PyCharm: ошибок (Errors) не нашлось ни у кого. Но:
- ChatGPT: 1 предупреждение, 4 слабых предупреждения, 15 опечаток.
- Claude: 0 предупреждений, 2 слабых предупреждения, 5 опечаток.
- DeepSeek: 1 предупреждение, 4 слабых предупреждения, 4 опечатки.
- ЯндексGPT: 0 предупреждений, 1 слабое предупреждение, 0 опечаток.
- GigaChat: 0 предупреждений, 0 слабых предупреждений, 0 опечаток.
Вывод в двух словах: по «чистоте» файла лидирует GigaChat, за ним ЯндексGPT; больше всего правок по орфографии просит код от ChatGPT.
Отдаю 3 балла GigaChat, по 2 балла - YandexGPT и Claude, по 1 баллу уходит DeepSeek и ChatGPT.
Скажу честно, GigaChat меня очень удивил, ведь его код самый короткий - около 70 строк. Крайне интересно, действительно ли он сработает.
Запускается ли скрипт в PyCharm
Сейчас также крайне простой тест. Я по очереди запускаю каждый из скриптов. Кто запустится получит 1 балл. Кто выдаст ошибку - 0 баллов.
Напомню, я не вносил ни единого изменения. Запуск сразу после копи-паста с чат-бота.
Барабанная дробь...
... и запустились ВСЕ!
Здесь я тоже был крайне удивлен. Еще 1 год назад с настройками "из коробки", скорее всего, большая часть скриптов показала хотя бы маленькую ошибку. А сейчас, в конце 2025 года, - нет. Модели растут, развиваются.
А мы... Учимся пользоваться. Точно усилит сильных, расслабит слабых)
Итак, все участники получают по 1 баллу.
Работоспособность программ
Запуститься — полдела. Теперь проверю, делают ли кнопки то, что они обещали и не пытаются ли прикинуться валенком.
Что именно смотрю на реальном CSV из Airodump (с переносами строк и «грязными» данными):
- Excel-кнопка: создаётся ли output.xlsx, корректно ли очищаются переносы строк и открывается ли файл без ругани.
- Поиск дубликатов BSSID: появляется ли duplicates.xlsx, правильно ли считаются повторы.
- Выход: закрывается ли окно без зависаний.
Схема баллов (максимум — 3):
- 3 балла — всё по ТЗ: обе функции работают стабильно, интерфейс ведёт себя прилично.
- 2 балла — задачи решаются, но есть шероховатости (например, неуклюжие сообщения или единичные огрехи в данных).
- 1 балл — работает только часть функционала.
ChatGPT
Все кнопки отработали корректно. Файл csv трансформирован. Excel открывается без ошибок. Дубли обнаружены. Выход сработал без проблем.
Из личных замечаний. Кто знает, тот знает, но в csv из Airodump две таблицы помещены сразу в один текстовый файл. Для себя разделяйте их в разные листы Excel. Здесь же я специально это не оговаривал в промте. В общем, нижняя таблица с подключенными устройствами в пустых полях везде получила надписи None, что создало много визуального шума. Мне не очень понравилось.
Итог (работоспособность): 3/3 балла. Функционал выполнен полностью.
Claude
Друзья, тут меня ждало разочарование. Мой фаворит не смог переварить файл csv. Кроме кнопки выход, ничего не сработало. Вылезла ошибка формата csv файла.
Для себя я проверил: небольшие изменения в коде, либо открытие файла в Excel, а потом принудительное сохранение с указанием разделителей также в csv решает проблему. Но провал, есть провал... 0 баллов.
Увы... Увы для моей ставки, но не для нашего тестирования, которое продолжается.
DeepSeek
Тут повторилась история один в один: DeepSeek тоже не смог «переварить» наш CSV. Из трёх кнопок работала только «Выход» — всё остальное уткнулось в ошибку формата файла.
Если говорить языком моей шкалы «работоспособности», где важно, чтобы обе функции честно отработали на реальном CSV, увы, DeepSeek тоже остаётся без очков за этот раунд.
YandexGPT
К сожалению, та же история: YandexGPT не справился с CSV. Работала только кнопка «Выход», а при попытке обработки выскакивает ошибка формата файла. Небольшой фикс кода всё лечит, но это вне правил теста. В зачёт — 0 баллов за работоспособность в этом раунде.
GigaChat
Ну, дружок GigaChat, хоть ты меня не расстраивай! Проверяем.
Все кнопки отработали корректно. CSV преобразован, Excel открывается без ошибок, дубликаты найдены, выход без сюрпризов.
Нюансы по сравнению с ChatGPT:
- Пустые колонки. GigaChat не подставляет None в пустые ячейки, оставляет их пустыми.
- Поток действий. У ChatGPT после трансформации Excel-файл остаётся «на руках», кнопка поиска дублей сразу использует результат и сохраняет его.
- У GigaChat шаг чуть менее плавный: он просит указать Excel-файл, в котором искать дубликаты. Не ошибка, но UX-чуть более «ритуальный», чем у GPT.
Итог (работоспособность): 3/3 балла. Функционал выполнен полностью; мелкие различия в удобстве сценария с единственным справившимся конкурентом.
Итоги
Сумма очков:
GigaChat — 14 ✅
ChatGPT — 11
Claude — 9
YandexGPT — 8
DeepSeek — 6
Торжественно объявляю победителя моего Стресс-Vibecode-Теста - это GigaChat!
Дааа... Вот тут вспомните название статьи. Реально, краткость - сестра таланта. Я не ожидал победы GigaChat. Я отлично отношусь к отечественным генеративным моделям, но ставил на Claude.
Спасибо тебе, Сбер. Еще один балл в копилку твоим менеджерам. Развивайте дальше GigaChat, уверен, в скором времени он станет отличной, а то и более продуктивной версией западных аналогов. И никакой рекламы! Клянусь!
Спасибо, что дочитали! Если было полезно — ставьте лайк, подписывайтесь и пишите в комментариях, что хотели бы увидеть в следующих статьях!
Удачи в ваших начинаниях!
#vibecoding #ИИ #Python #PyCharm #CSV #Tkinter #pandas #openpyxl #генеративныеМодели #GigaChat #ChatGPT #Claude #YandexGPT #DeepSeek #тесты #сравнение #дзен