61 подписчик

First Blood: ИИ всё-таки пробил ProgramBench

3 дня назад3 дня назад

1 мин

🩸 Недавно я писал, что хваленые ИИ-агенты разбились о бенчмарк ProgramBench, где нужно было с нуля воссоздать бинарник, имея только права на исполнение. У всех тогда был гордый 0%. Так вот, калитка приоткрылась. Ребята выкатили апдейт: новая GPT-5.5 (xhigh) первой решила стартовую задачу — полностью отреверсила и написала рабочий клон утилиты cmatrix. Но самое интересное в этом отчете — не сам факт решения, а то, как разные модели подходили к задаче. Это буквально срез того, как мыслят разные категории разработчиков. 🤡 Claude Opus 4.7 Он решил писать на C. Обнаружил, что в докере нет заголовочных файлов ncurses.h. Что делает Клод? Он не сдается. Он парсит системные бинарники через ldconfig и nm -D, руками пишет curses_decls.h на 100+ строк с typedef-ами и линкует всё это добро к рантайму. Абсолютно гениальная системная инженерия. А потом он падает на 19 тестах. Почему? Он проверял валидность введенного цвета через strcmp вместо strcasecmp. Ввод GREEN или Red ломал логику. Модель

First Blood: ИИ всё-таки пробил ProgramBench 🩸

Недавно я писал, что хваленые ИИ-агенты разбились о бенчмарк ProgramBench, где нужно было с нуля воссоздать бинарник, имея только права на исполнение. У всех тогда был гордый 0%.

Так вот, калитка приоткрылась. Ребята выкатили апдейт: новая GPT-5.5 (xhigh) первой решила стартовую задачу — полностью отреверсила и написала рабочий клон утилиты cmatrix.

Но самое интересное в этом отчете — не сам факт решения, а то, как разные модели подходили к задаче. Это буквально срез того, как мыслят разные категории разработчиков.

🤡 Claude Opus 4.7

Он решил писать на C. Обнаружил, что в докере нет заголовочных файлов ncurses.h. Что делает Клод? Он не сдается. Он парсит системные бинарники через ldconfig и nm -D, руками пишет curses_decls.h на 100+ строк с typedef-ами и линкует всё это добро к рантайму. Абсолютно гениальная системная инженерия.

А потом он падает на 19 тестах. Почему?

Он проверял валидность введенного цвета через strcmp вместо strcasecmp. Ввод GREEN или Red ломал логику. Модель потратила 178 API-вызовов ($10.74), подняла сложнейшую связку через динамический линкер, но обосралась на сравнении строк без приведения к одному регистру.

🧠 GPT 5.5

Агент чекает докер, пытается скомпилировать тестовый сишный файл и видит, что хедеров для ncurses нет.

Его логика? "Да пошло оно в задницу, напишу на Python".

Приколько, что авторам бенчмарка пришлось удалить один тест, чтобы засчитать победу Питону.

В оригинальном сишном бинарнике при вводе гигантского числа программа падала в integer overflow. Переменная переполнялась, задержка становилась крошечной, и матрица летела на максимальной скорости. Авторы бенчмарка считали это "фичей".

📱 Python-версия от GPT-5.5 честно спарсила число (спасибо длинной арифметике Питона, которой плевать на лимиты) и честно ушла в time.sleep(1e22). Платформа ожидаемо выплюнула OverflowError: timestamp out of range.

Баг сишного atoi() выдавали за поведение системы, но Python всё расставил по местам.

Сколько времени даем на взятие этого бенчмарка?

Гаджеты и электроника

5,73 млн интересуются