Франсуа Шолле показал новый бенчмарк, где агенту уже мало просто “быть умным на словах”. Теперь это не статичные задачки, а интерактивные мини-миры, где ИИ должен сам разбираться, пробовать, ошибаться и учиться на ходу. ❗️ Что важно: 🗣 без языка, подсказок и инструкций; 🗣 только логика, пространство, причинность и адаптация; 🗣 больше 1000 уровней в 150 окружениях; 🗣 можно смотреть повторы, чтобы разбирать, как модель вообще думала. И самое вкусное — результаты: Gemini 3.1 Pro — 0.37% GPT-5.4 — 0.26% Claude Opus 4.6 — 0.25% Grok-4.20 — 0% Люди при этом проходят такие задачи быстро и без особых проблем. Вот тут ИИ и проверяют на реальный интеллект, а не на красивую болтовню. 😎 КиберПоток / Навигация #новость #ИИ #AI #КП