Совместная работа некоммерческой организации Center for AI Safety (CAIS) и компании Scale AI привела к неутешительным выводам. В ходе эксперимента шесть ведущих ИИ‑агентов прошли тестирование на симулированных фриланс‑задачах. Результат оказался обескураживающим: ни один из участников не сумел выполнить более 3 % объёма работы. Если потенциальный доход от полного выполнения всех заданий оценивался в 143 991 доллар, то суммарный заработок ИИ‑агентов составил лишь 1 810 долларов. Для объективной оценки специалисты разработали специальный бенчмарк Remote Labor Index. Он имитирует реальные удалённые проекты из самых разных сфер — от разработки игр до анализа данных. Задача теста заключалась в том, чтобы выяснить, способны ли боты выполнять работу, имеющую реальную экономическую ценность. Наилучший результат показал ИИ‑агент китайского стартапа Manus, сумевший завершить 2,5 % назначенных проектов на уровне, приемлемом для реальной фриланс‑работы. Не намного отстали Grok 4 (проект Илона Маск