21 подписчик

OpenAI и Paradigm запустили бенчмарк EVMbench

19 февраля19 фев

~1 мин

OpenAI и инвестиционная компания в криптосфере Paradigm представили EVMbench — бенчмарк для оценки того, насколько хорошо ИИ-агенты умеют находить, исправлять и использовать уязвимости в смарт-контрактах Ethereum. Набор данных включает 120 уязвимостей, выделенных из 40 реальных аудитов безопасности. В наиболее приближённом к практике сценарии ИИ-агенты работают с локальной блокчейн-сетью и должны проводить атаки полностью самостоятельно, без подсказок человека. Лучший результат по эксплуатации уязвимостей показала модель GPT-5.3-Codex: она смогла успешно использовать 72% уязвимостей и исправить 41,5%. По обнаружению проблем лидером стала Claude Opus 4.6, которая достигла… Подробнее

В наиболее приближённом к практике сценарии ИИ-агенты работают с локальной блокчейн-сетью и должны проводить атаки полностью самостоятельно, без подсказок человека.

Лучший результат по эксплуатации уязвимостей показала модель GPT-5.3-Codex: она смогла успешно использовать 72% уязвимостей и исправить 41,5%. По обнаружению проблем лидером стала Claude Opus 4.6, которая достигла…

Подробнее