40 подписчиков

ИИ в шоке: … или когда машины плачут

14 апреля 202514 апр 2025

1 мин

😳 Новый тест поставил искусственный интеллект на место Что случилось: Фонд Arc Prize Foundation, возглавляемый известным исследователем ИИ Франсуа Шолле, решил устроить настоящий экзамен для самых умных искусственных мозгов планеты. И что вы думаете? Наши дорогие электронные друзья получили такой удар по “цифровым чувствам”, что даже их “нейроны” затрепетали. ⚰️ Тест-убийца для ИИ Новый тест ARC-AGI-2 оказался настоящим убийцей для всех моделей ИИ. Даже самые продвинутые системы, которые раньше хвастались своими “рассуждательными” способностями, смогли набрать лишь 1-1,3% баллов. А их более мощные, но менее “разумные” собратья, вроде GPT-4.5 и Claude 3.7, и вовсе остановились на позорном 1%. 🧠 Человеческий фактор Для сравнения: 400 обычных людей (не каких-то там супергениев) в среднем справились на 60%. Видимо, человеческий мозг всё-таки имеет какие-то преимущества перед железяками, хотя бы в способности решать головоломки. 🖥 Что там за задачи ИИ должен смотреть на разноцветные квад

😳 Новый тест поставил искусственный интеллект на место

Что случилось: Фонд Arc Prize Foundation, возглавляемый известным исследователем ИИ Франсуа Шолле, решил устроить настоящий экзамен для самых умных искусственных мозгов планеты. И что вы думаете? Наши дорогие электронные друзья получили такой удар по “цифровым чувствам”, что даже их “нейроны” затрепетали.

⚰️ Тест-убийца для ИИ

Новый тест ARC-AGI-2 оказался настоящим убийцей для всех моделей ИИ. Даже самые продвинутые системы, которые раньше хвастались своими “рассуждательными” способностями, смогли набрать лишь 1-1,3% баллов. А их более мощные, но менее “разумные” собратья, вроде GPT-4.5 и Claude 3.7, и вовсе остановились на позорном 1%.

🧠 Человеческий фактор

Для сравнения: 400 обычных людей (не каких-то там супергениев) в среднем справились на 60%. Видимо, человеческий мозг всё-таки имеет какие-то преимущества перед железяками, хотя бы в способности решать головоломки.

🖥 Что там за задачи

ИИ должен смотреть на разноцветные квадратики и понимать, какой узор нужно нарисовать в ответ. Звучит просто? А вот нашим электронным друзьям оказалось совсем не по зубам. Особенно когда им пришлось импровизировать и решать задачи, с которыми они раньше не сталкивались.

📈 Новая метрика: эффективность важнее всего?

Создатели теста решили, что просто “тупой силы” вычислений недостаточно. Теперь важно не только решить задачу, но и сделать это эффективно, не расходуя энергию как бездонная бочка. Пришло время научить ИИ считать не только биты и байты, но и деньги.

⬇️ История падения

Предыдущая версия теста, ARC-AGI-1, держалась непобедимой целых пять лет. Пока OpenAI не выпустила свою супер-модель o3, которая наконец-то смогла достичь человеческих результатов. Правда, за это пришлось заплатить такую цену, что даже жадные разработчики ИИ задумались: а стоит ли овчинка выделки?

▶️ Что дальше?

Фонд уже объявил конкурс Arc Prize 2025, где участникам предстоит набрать 85% в новом тесте, потратив всего 42 цента на задачу.

💡 В общем, пока они учатся работать за 42 цента, мы, люди, можем спокойно наслаждаться тем, как наши простые головоломки ставят в тупик самые продвинутые машины.

Хотя, если прикинуть, то в наших рабочих процессах столько головоломок и как бы не оказалось, что ИИ и все эти требования к цифровой трансформации, цифровизации и даже целое направление в Экономике данных слегка переоценены 🤔