Жесткая авария на Филиппинах, помогаем пострадавшим, ночь в больнице
ИИ решил 56% многонедельных задач по программированию в новом бенчмарке MirrorCode
Бенчмарк автономного кодирования ИИ MirrorCode показывает, что Claude Opus 4.7 решает 56% программных проектов, на которые, по оценкам, у инженеров-людей ушли бы недели, — на самой сложной задаче модель работала непрерывно 19 дней. Полные результаты Epoch AI и METR выявляют успехи передовых моделей и архитектурные пределы. Автономное кодирование с помощью ИИ пересекло порог, которого большинство инженеров-программистов не ожидали увидеть в этом году: новый эталонный тест, опубликованный в пятницу Epoch AI и METR, показал, что лучшая на сегодняшний день модель, Claude Opus 4...