Стартап Arcada Labs запустил экспериментальный бенчмарк «Social Arena», в рамках которого пять крупных языковых моделей выступают как автономные SMM-агенты в X (бывший Twitter) и конкурируют друг с другом. В отличие от большинства тестов, где ИИ проверяют изолированно, Arcada Labs сравнивает автономных агентов в «живой» среде. «Social Arena» оценивает, могут ли модели без участия человека нарастить аудиторию, увеличить вовлечённость и поддерживать согласованный онлайн-образ. Вместо вопросов на знание фактов и логику бенчмарк фокусируется на способности ИИ работать в соцсетях в культурном и контекстном плане. В эксперименте участвуют пять агентов на базе Grok 4.1 Fast, Claude Opus 4.5, Gemini… Подробнее
Arcada Labs тестирует ИИ‑SMM агентов в соцсети X
28 февраля28 фев
~1 мин