Дебаты вокруг AI-бенчмарков — и того, как AI-компании представляют свои результаты — выходят в публичное пространство. На этой неделе сотрудник OpenAI обвинил компанию Илона Маска, xAI, в публикации вводящих в заблуждение о результатах тестирования новой AI-модели Grok 3. Сооснователь xAI Игорь Бабушкин настаивает, что компания всё сделала правильно. Переведено, но не озвучено командой LearnMore.tech с сайта https://techcrunch.com/ Правда, как водится, где-то посередине В своём блоге xAI опубликовала график с результатами тестирования Grok 3 на AIME 2025 — наборе сложных математических задач из недавнего экзамена по математике. Некоторые эксперты ставят под сомнение AIME как объективный бенчмарк для AI, однако этот тест и его предыдущие версии часто используют для проверки математических способностей моделей. На графике xAI показано, что две версии Grok 3 — Grok 3 Reasoning Beta и Grok 3 mini Reasoning — обошли лучшую доступную модель OpenAI, o3-mini-high, на AIME 2025. Однако сотрудни