39 подписчиков

🛡 Вышел ARC-AGI-3 — и ИИ там просто посыпались

26 марта26 мар

~1 мин

Франсуа Шолле показал новый бенчмарк, где агенту уже мало просто “быть умным на словах”. Теперь это не статичные задачки, а интерактивные мини-миры, где ИИ должен сам разбираться, пробовать, ошибаться и учиться на ходу. ❗️ Что важно: 🗣 без языка, подсказок и инструкций; 🗣 только логика, пространство, причинность и адаптация; 🗣 больше 1000 уровней в 150 окружениях; 🗣 можно смотреть повторы, чтобы разбирать, как модель вообще думала. И самое вкусное — результаты: Gemini 3.1 Pro — 0.37% GPT-5.4 — 0.26% Claude Opus 4.6 — 0.25% Grok-4.20 — 0% Люди при этом проходят такие задачи быстро и без особых проблем. Вот тут ИИ и проверяют на реальный интеллект, а не на красивую болтовню. 😎 КиберПоток / Навигация #новость #ИИ #AI #КП

Франсуа Шолле показал новый бенчмарк, где агенту уже мало просто “быть умным на словах”.

Теперь это не статичные задачки, а интерактивные мини-миры, где ИИ должен сам разбираться, пробовать, ошибаться и учиться на ходу.

❗️ Что важно:

🗣 без языка, подсказок и инструкций;

🗣 только логика, пространство, причинность и адаптация;

🗣 больше 1000 уровней в 150 окружениях;

🗣 можно смотреть повторы, чтобы разбирать, как модель вообще думала.

И самое вкусное — результаты:

Gemini 3.1 Pro — 0.37%

GPT-5.4 — 0.26%

Claude Opus 4.6 — 0.25%

Grok-4.20 — 0%

Люди при этом проходят такие задачи быстро и без особых проблем.

Вот тут ИИ и проверяют на реальный интеллект, а не на красивую болтовню.

😎 КиберПоток / Навигация

#новость #ИИ #AI #КП