Microsoft создала Windows Agent Arena для тестирования агентов генеративного ИИ

Использование генеративного ИИ и больших языковых моделей для автоматизации и упрощения задач для людей, работающих с ПК, продолжает расти.Umteh.com
Бенчмарк, как показано на странице Microsoft GitHub, называется Windows Agent Arena.Umteh.com
Его попросили выполнить задачи с определёнными текстовыми подсказками, например: «Можете ли вы превратить веб-сайт, который я просматриваю, в PDF-файл и поместить его на мой главный экран, вы знаете, на рабочий стол?».Umteh.com
Было обнаружено, что средний показатель успешности Navi составил 19,5 процента, что всё ещё довольно низко по сравнению с оценкой производительности человека в 74,5 процента.Umteh.com