894 подписчика

ИИ снова отстают от людей — вышел новый бенчмарк ARC-AGI-3, где люди закрывают задачи на 100%, а нейронки даже не приближаются

30 марта30 мар

~1 мин

Результаты топовых моделей выглядят грустно: Gemini 3.1 Pro — 0.37%, GPT 5.4 — 0.26%, Opus 4.6 — 0.25%, Grok-4.20 — 0.00% При этом прошлые версии теста уже почти побеждены: ARC-AGI-1 закрывают до 98%, а ARC-AGI-2 добрался до 85% Скайнет откладывается Новый бенчмарк полностью состоит из игровых сред. Проверить себя можно по ссылке. Подробнее: https://hard-tm.su/threads/156282/ 🕹HARD-TM — Подписаться

Результаты топовых моделей выглядят грустно: Gemini 3.1 Pro — 0.37%, GPT 5.4 — 0.26%, Opus 4.6 — 0.25%, Grok-4.20 — 0.00%

При этом прошлые версии теста уже почти побеждены: ARC-AGI-1 закрывают до 98%, а ARC-AGI-2 добрался до 85%

Скайнет откладывается

Новый бенчмарк полностью состоит из игровых сред. Проверить себя можно по ссылке.

Подробнее: https://hard-tm.su/threads/156282/

🕹HARD-TM — Подписаться