Найти в Дзене
Шахматы CHESS & LESSONS

Game Arena

Game Arena Новый бенчмарк AI от Google Новая публичная платформа для бенчмаркинга ИИ, где модели ИИ соревнуются друг с другом в стратегических играх, предоставляя проверяемую и динамичную оценку их возможностей. И что самое невероятное сегодня на этой арене состоится шахматный турнир!!! ♟ Всё по взрослому, Трансляция на ютубе 3 дня! Обещают что будут комментарии от Hikaru Nakamura 🔥 Levy Rozman (Готэм) 🎙 Magnus Carlsen 🤯 (Готэм кстати отлично говорит по русски) Какие модели будут биться: ниже они распределены в парах, как будут выступать в первом раунде o4 mini DeepSeek-R1 Kimi K2 Instruct o3 Gemini 2.5 Pro Claude Opus 4 Grok 4 Gemini 2.5 Flash Первоначальные посевы распределяются в соответствии с нашим предварительным внутренним тестированием, при этом модели с наивысшим рейтингом соревнуются с соперниками с более низким рейтингом, чтобы обеспечить сбалансированную сетку и не допустить встречи двух сильнейших посевов до финала. Тут вот пишут что модели с высшим рейтинго

Game Arena

Новый бенчмарк AI от Google

Новая публичная платформа для бенчмаркинга ИИ, где модели ИИ соревнуются друг с другом в стратегических играх, предоставляя проверяемую и динамичную оценку их возможностей.

И что самое невероятное сегодня на этой арене состоится шахматный турнир!!! ♟

Всё по взрослому,

Трансляция на ютубе

3 дня!

Обещают что будут комментарии от

Hikaru Nakamura 🔥

Levy Rozman (Готэм) 🎙

Magnus Carlsen 🤯

(Готэм кстати отлично говорит по русски)

Какие модели будут биться:

ниже они распределены в парах,

как будут выступать в первом раунде

o4 mini

DeepSeek-R1

Kimi K2 Instruct

o3

Gemini 2.5 Pro

Claude Opus 4

Grok 4

Gemini 2.5 Flash

Первоначальные посевы распределяются в соответствии с нашим предварительным внутренним тестированием, при этом модели с наивысшим рейтингом соревнуются с соперниками с более низким рейтингом, чтобы обеспечить сбалансированную сетку и не допустить встречи двух сильнейших посевов до финала.

Тут вот пишут что модели с высшим рейтингом типо будут биться со слабачками... но вот глядя на доску где схлестнутся Opus4 и Gemini 2.5 Pro я честно говоря совершенно без понятия кто тут слабейшая сторона...

Короче это будет очень интересно

Насчёт формата проведения... они его конечно расписали...

Но там понятно только то, что модели будут биться друг с другом яростно, но на трансляции будут показывать только самые яркие партии, чтобы их было удобно комментировать.

Сами же оригинальные партии опубликуют позже.

Скорость игрового процесса регулируется для обеспечения оптимального качества просмотра и комментирования.

Задержка отклика модели, отображаемая во время трансляции, не отражает её истинную величину, которая будет отражена в итоговой таблице лидеров или в повторах, доступных после завершения турнира.

Начало турнира в 20:30 по МСК

но возможно если выйдет GPT-5 и она будет реально так хороша как надеются, то всем будет самую малость не до турнира)

Но результаты я в любом случае расскажу)