Недавно некоммерческая организация Laude Institute объявила победителя первого раунда конкурса по программированию с искусственным интеллектом K Prize, запущенного соучредителем Databricks и Perplexity Энди Конвински. Победителем стал бразильский инженер Эдуардо Роча де Андраде, который получил приз в размере 50 000 долларов. Однако его результат оказался неожиданно низким: его модель правильно ответила всего на 7,5% вопросов теста. «Мы рады, что создали тест, который на самом деле сложен», — заявил Конвински. Он подчеркнул, что бенчмарки должны быть сложными, чтобы иметь значение, и отметил, что K Prize отличается от тестов, проводимых крупными лабораториями, поскольку он ориентирован на небольшие и открытые модели и ограничен в вычислительных ресурсах. Конвински пообещал выделить 1 миллион долларов первой модели с открытым исходным кодом, которая сможет набрать более 90% баллов в тесте. K Prize, подобно SWE-Bench, проверяет модели на наличие проблем, отмеченных на GitHub, чтобы оцени
Новый конкурс по программированию с ИИ опубликовал первые результаты — и они неутешительны
25 июля 202525 июл 2025
8
2 мин