🩸 Недавно я писал, что хваленые ИИ-агенты разбились о бенчмарк ProgramBench, где нужно было с нуля воссоздать бинарник, имея только права на исполнение. У всех тогда был гордый 0%. Так вот, калитка приоткрылась. Ребята выкатили апдейт: новая GPT-5.5 (xhigh) первой решила стартовую задачу — полностью отреверсила и написала рабочий клон утилиты cmatrix. Но самое интересное в этом отчете — не сам факт решения, а то, как разные модели подходили к задаче. Это буквально срез того, как мыслят разные категории разработчиков. 🤡 Claude Opus 4.7 Он решил писать на C. Обнаружил, что в докере нет заголовочных файлов ncurses.h. Что делает Клод? Он не сдается. Он парсит системные бинарники через ldconfig и nm -D, руками пишет curses_decls.h на 100+ строк с typedef-ами и линкует всё это добро к рантайму. Абсолютно гениальная системная инженерия. А потом он падает на 19 тестах. Почему? Он проверял валидность введенного цвета через strcmp вместо strcasecmp. Ввод GREEN или Red ломал логику. Модель