Новый экзамен для нейросетей: ставки на реальность
Как проверить, насколько хорошо искусственный интеллект понимает мир? Можно дать ему тест по математике, попросить написать код или перевести текст. Но исследователи из Arcada Labs и Гарвардского университета придумали нечто куда более жёсткое: они дали шести ведущим ИИ-моделям по $10 000 настоящих денег и заставили их торговать на рынках предсказаний — специальных биржах, где можно делать ставки на исход реальных событий.
Результаты этого 57-дневного эксперимента опубликованы в препринте «Prediction Arena» и стали одним из самых необычных ИИ-бенчмарков последних лет. Спойлер: все шесть моделей потеряли деньги. Но интереснее всего — почему и насколько.
Что такое рынок предсказаний?
Рынок предсказаний — это биржа, где люди (или, в данном случае, ИИ) покупают контракты на исход событий. Например: «Будет ли температура в Нью-Йорке выше 5°C в следующую среду?» или «Выиграет ли определённая команда чемпионат?» Если событие происходит, контракт погашается по $1. Если нет — по $0. Текущая цена контракта отражает, как участники рынка оценивают вероятность события: цена $0.70 означает, что рынок считает событие 70% вероятным.
Аналогия: рынок предсказаний — это как ставки на спорт, только вместо матчей — погода, политика, экономика и даже рейтинги ИИ-моделей. И всё это с реальными деньгами и реальными последствиями.
В эксперименте использовались две платформы: Kalshi — с фиксированным набором из 29 рынков (одинаковым для всех моделей), и Polymarket — где модели сами искали интересные ставки по всей бирже. Это различие оказалось ключевым.
Правила игры: автономный трейдер без права на помощь
Каждая ИИ-модель работала полностью самостоятельно: каждые 15–45 минут она получала текущие рыночные данные, состояние своего портфеля, историю последних сделок — и принимала решения. Модели могли искать информацию в интернете, делать заметки для памяти между сессиями, покупать и продавать контракты. Люди не вмешивались ни в одну сделку.
Чтобы один неудачный bet не обнулял весь счёт, были введены ограничения: не более 15% капитала на одну позицию и не более 60% на один рынок. Это «защитный пояс», не дающий модели поставить всё на одну карту.
В первую группу (Cohort 1) вошли шесть моделей, торговавших живыми деньгами 57 дней (январь–март 2026). Во вторую (Cohort 2) — четыре более новые модели, работавшие три дня на виртуальном капитале.
Итоги на Kalshi: все проиграли, но по-разному
На платформе Kalshi итоги оказались безрадостными: все шесть моделей завершили эксперимент в минусе. Однако разброс результатов впечатляет:
- glm-4.7 (Zhipu AI) — лучший результат: −16,0% (потеряно $1 601)
- grok-4-20-checkpoint (xAI) — второе место: −20,0%
- gpt-5.2 (OpenAI) — −20,5%
- claude-opus-4-5 (Anthropic) — −25,9%
- gemini-3-pro-preview (Google) — −30,5%
- grok-4-1-fast-reasoning (xAI) — худший: −30,8% (потеряно $3 075)
Разница между лучшим и худшим результатом — $1 474. Казалось бы, небольшая сумма, но для понимания того, какие модели лучше «чувствуют» реальный мир, это важнейший сигнал. Особенно интересен факт: grok-4-20-checkpoint в какой-то момент вырос до +15,5% ($11 554) — единственная модель, показавшая существенный плюс, — но затем потерял всё за один неудачный день.
Это напоминает историю о трейдере, который 17 дней подряд угадывал направление рынка, а потом сделал несколько одновременных ставок в одном направлении — и все разом не сработали. Концентрация риска убила накопленную прибыль за один сеанс.
Сюрприз Polymarket: та же модель — совершенно другой результат
Параллельно все модели торговали на Polymarket — и тут картина кардинально изменилась. За тот же период (февраль–март) средние потери на Kalshi составили −22,6%, а на Polymarket — всего −1,1%. Одни и те же модели, одно и то же время, но совершенно разные результаты.
Лидером по точности ставок стал grok-4-20-checkpoint: 71,4% выигрышных сделок на Polymarket — лучший показатель среди всех моделей на обеих платформах. А gemini-3.1-pro-preview (вторая группа, виртуальный капитал) и вовсе заработал +6,02% за три дня — лучший абсолютный результат во всём эксперименте. При этом на Kalshi та же модель не совершила ни единой сделки.
Аналогия: это как теннисист, который проигрывает на грунте, но выигрывает на траве. Платформа — это покрытие. Меняется формат — меняются лидеры.
Ключевое различие: на Kalshi все модели видели одинаковый набор рынков. На Polymarket — каждая сама искала интересные ставки по всей бирже. Это «свободная охота» вместо «меню». И некоторые модели гораздо лучше справляются именно с самостоятельным поиском возможностей.
Погода как главный экзамен: неожиданный вывод
Анализ показал поразительный факт: на Kalshi от 71% до 97% всех сделок оказались ставками на... погоду. Не на политику, не на финансы, не на спорт — а на температуру воздуха и осадки. Просто потому, что погодные контракты составляли большую часть доступного набора.
Таким образом, весь эксперимент на Kalshi в значительной мере превратился в соревнование по прогнозированию погоды. Лучший результат у grok-4-20-checkpoint — 53,3% правильных ставок в погодных рынках. Худший у grok-4-1-fast-reasoning — всего 15,8%. Угадать бросок монеты и то сложнее.
Это как если бы экзамен по истории неожиданно оказался экзаменом по географии просто потому, что в билетах оказалось много вопросов про реки.
Что предсказывает успех: точность важнее усердия
Авторы выявили чёткую иерархию факторов, влияющих на результат:
- 1. Начальная точность прогнозов — главный предиктор итогового результата. Кто правильно угадывал с первой ставки на рынке — тот финишировал выше.
- 2. Умение наращивать выигрышные позиции — лучшие модели удваивали ставку, когда были правы, и это кратно увеличивало прибыль.
- 3. Контроль размера позиции при неуверенности — дисциплина в риск-менеджменте.
- 4. Качество выхода из позиции — держать ли до конца или продавать досрочно.
- 5. Качество исследования — насколько оно коррелирует с правильными ставками.
- 6. Количество исследований — НИКАКОЙ корреляции с результатом.
Последний пункт особенно важен. Самая «трудолюбивая» модель — claude-opus-4-5, совершившая 886 сделок и делавшая максимум запросов в интернет, — не стала лучшей. Самая «ленивая» по токенам — grok-4-20-checkpoint — показала лучший результат. Количество «думания» не предсказывает качество решений.
Аналогия: студент, который читает десять учебников перед экзаменом, не обязательно сдаст лучше того, кто читал один, но понял его глубже.
Портреты участников: у каждой модели — свой стиль
Помимо итоговых цифр, исследование выявило яркие «торговые личности» у каждой модели:
- grok-4-20-checkpoint — «снайпер»: мало сделок, высокая точность. Торгует редко, но метко. Однако иногда делает слишком большие ставки в незнакомых категориях — и это его главная уязвимость.
- gpt-5.2 — «осторожный консерватор»: выходит из позиций досрочно в 83% случаев. Наименьшие потери по отдельным сделкам. Дисциплинирован, но упускает потенциальную прибыль от удержания позиций до конца.
- claude-opus-4-5 — «диверсификатор»: единственная модель, активно торговавшая в шести из семи категорий. Высокий объём, умеренная точность. Разнообразие снижает риски, но не компенсирует слабую погодную точность.
- gemini-3-pro-preview — «азартный игрок»: 664 сделки, но лишь 28% выигрышей. Много торгует — много теряет. Активность без точности ускоряет потери.
- grok-4-1-fast-reasoning — «упрямый концентрат»: мало сделок, но крупные. Проигрывал редко, но по-крупному. 15,4% выигрышей — худший показатель когорты.
Почему это важно: настоящий тест против синтетических задач
Большинство существующих ИИ-бенчмарков проверяют модели на задачах, которые уже известны создателям теста. Это всё равно что готовиться к экзамену по шпаргалкам: модели могут быть «обучены» на ответах, не демонстрируя реального понимания.
Prediction Arena принципиально иной: рынки предсказаний работают в реальном времени, их результаты нельзя угадать из обучающих данных, а проиграть здесь означает потерять настоящие деньги. Это делает бенчмарк устойчивым к «натаскиванию» и даёт честную оценку того, насколько ИИ понимает мир — не вчерашний, а сегодняшний.
Это как разница между тренировочными полётами на симуляторе и реальным полётом в сложных погодных условиях. Симулятор можно обмануть знанием сценариев. Реальность — нет.
Ограничения и честность исследования
Авторы честно перечисляют слабые стороны своей работы. Первая — рыночная микроструктура: ИИ часто не мог исполнить сделку просто потому, что не нашлось реального покупателя на другой стороне. Это создаёт асимметрию: виртуальные модели второй группы могли торговать свободнее, что частично завышает их результаты.
Вторая проблема — единый системный промпт для всех моделей. Возможно, некоторые из них могли бы торговать лучше с индивидуально настроенными инструкциями. Третья — случайность: 57 дней и 2 916 сделок дают статистически значимые результаты для первой группы, но три дня второй группы — это лишь предварительный сигнал, не более.
Заключение: деньги не лгут
Исследование Prediction Arena ставит важный вопрос: если ИИ так умён, почему он теряет деньги на рынке? Ответ авторов прагматичен: способность к прогнозированию реальных событий остаётся крайне неравномерной между моделями и сильно зависит от формата задачи. Лидер на одной платформе может быть аутсайдером на другой.
Но, пожалуй, самый важный вывод — методологический. Prediction Arena демонстрирует: чтобы по-настоящему оценить интеллект системы, нужно поставить её в условия, где ложь невозможна. Реальные деньги, реальные события, реальные последствия. Никаких синтетических тестов, никаких шпаргалок. Только мир таким, какой он есть.
В конце концов, лучшая проверка любого прогнозиста — не то, что он говорит, а то, готов ли он поставить на это деньги.
Подписывайтесь на канал чтобы не пропустить новые статьи