Новый конкурс по программированию с ИИ опубликовал первые результаты — и они неутешительны

25 июля 202525 июл 2025

2 мин

Недавно некоммерческая организация Laude Institute объявила победителя первого раунда конкурса по программированию с искусственным интеллектом K Prize, запущенного соучредителем Databricks и Perplexity Энди Конвински. Победителем стал бразильский инженер Эдуардо Роча де Андраде, который получил приз в размере 50 000 долларов. Однако его результат оказался неожиданно низким: его модель правильно ответила всего на 7,5% вопросов теста. «Мы рады, что создали тест, который на самом деле сложен», — заявил Конвински. Он подчеркнул, что бенчмарки должны быть сложными, чтобы иметь значение, и отметил, что K Prize отличается от тестов, проводимых крупными лабораториями, поскольку он ориентирован на небольшие и открытые модели и ограничен в вычислительных ресурсах. Конвински пообещал выделить 1 миллион долларов первой модели с открытым исходным кодом, которая сможет набрать более 90% баллов в тесте. K Prize, подобно SWE-Bench, проверяет модели на наличие проблем, отмеченных на GitHub, чтобы оцени

«Мы рады, что создали тест, который на самом деле сложен», — заявил Конвински. Он подчеркнул, что бенчмарки должны быть сложными, чтобы иметь значение, и отметил, что K Prize отличается от тестов, проводимых крупными лабораториями, поскольку он ориентирован на небольшие и открытые модели и ограничен в вычислительных ресурсах.

Конвински пообещал выделить 1 миллион долларов первой модели с открытым исходным кодом, которая сможет набрать более 90% баллов в тесте.

K Prize, подобно SWE-Bench, проверяет модели на наличие проблем, отмеченных на GitHub, чтобы оценить их способность решать реальные задачи программирования. Однако в отличие от SWE-Bench, K Prize разработан как «свободная от загрязнения версия», использующая систему входа по времени. Это означает, что модели не могут тренироваться на задачах, которые включены в тест. Для первого раунда модели должны были быть готовы к 12 марта, а тест был создан на основе проблем, отмеченных на GitHub после этой даты.

Результат победителя — 7,5% — резко контрастирует с показателями SWE-Bench, где лучшие модели достигают 75% в «Проверенном» тесте и 34% в «Полном» тесте. Конвински пока не уверен, связано ли это различие с загрязнением данных в SWE-Bench или с трудностями сбора новых данных с GitHub, но он ожидает, что K Prize поможет разобраться в этом вопросе в будущем.

«По мере того, как мы будем проводить больше прогонов, у нас будет лучшее понимание, — сказал он TechCrunch, — потому что мы ожидаем, что люди будут адаптироваться к динамике конкуренции каждые несколько месяцев».

Хотя низкие результаты могут показаться неожиданными на фоне широкого распространения ИИ-инструментов для программирования, многие эксперты считают такие проекты, как K Prize, необходимым шагом в решении проблемы оценки ИИ. Исследователь из Принстона Саяш Капур отметил, что создание новых тестов для существующих бенчмарков — важный шаг вперед.

Для Конвински K Prize — это не только лучший эталон, но и открытый вызов индустрии. «Если вы прислушаетесь к шумихе, то увидите, как будто мы уже должны видеть врачей ИИ, юристов ИИ и инженеров-программистов ИИ, но это просто неправда», — говорит он.

Источник: https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-the...

Больше интересного – на медиапортале https://www.cta.ru/

Гаджеты и электроника

5,73 млн интересуются