Добавить в корзинуПозвонить
Найти в Дзене

ИИ-трейдер на реальных рынках: как учёные проверили нейросети настоящими деньгами

Как проверить, насколько хорошо искусственный интеллект понимает мир? Можно дать ему тест по математике, попросить написать код или перевести текст. Но исследователи из Arcada Labs и Гарвардского университета придумали нечто куда более жёсткое: они дали шести ведущим ИИ-моделям по $10 000 настоящих денег и заставили их торговать на рынках предсказаний — специальных биржах, где можно делать ставки на исход реальных событий. Результаты этого 57-дневного эксперимента опубликованы в препринте «Prediction Arena» и стали одним из самых необычных ИИ-бенчмарков последних лет. Спойлер: все шесть моделей потеряли деньги. Но интереснее всего — почему и насколько. Рынок предсказаний — это биржа, где люди (или, в данном случае, ИИ) покупают контракты на исход событий. Например: «Будет ли температура в Нью-Йорке выше 5°C в следующую среду?» или «Выиграет ли определённая команда чемпионат?» Если событие происходит, контракт погашается по $1. Если нет — по $0. Текущая цена контракта отражает, как учас
Оглавление

Новый экзамен для нейросетей: ставки на реальность

Как проверить, насколько хорошо искусственный интеллект понимает мир? Можно дать ему тест по математике, попросить написать код или перевести текст. Но исследователи из Arcada Labs и Гарвардского университета придумали нечто куда более жёсткое: они дали шести ведущим ИИ-моделям по $10 000 настоящих денег и заставили их торговать на рынках предсказаний — специальных биржах, где можно делать ставки на исход реальных событий.

Результаты этого 57-дневного эксперимента опубликованы в препринте «Prediction Arena» и стали одним из самых необычных ИИ-бенчмарков последних лет. Спойлер: все шесть моделей потеряли деньги. Но интереснее всего — почему и насколько.

Что такое рынок предсказаний?

Рынок предсказаний — это биржа, где люди (или, в данном случае, ИИ) покупают контракты на исход событий. Например: «Будет ли температура в Нью-Йорке выше 5°C в следующую среду?» или «Выиграет ли определённая команда чемпионат?» Если событие происходит, контракт погашается по $1. Если нет — по $0. Текущая цена контракта отражает, как участники рынка оценивают вероятность события: цена $0.70 означает, что рынок считает событие 70% вероятным.

Аналогия: рынок предсказаний — это как ставки на спорт, только вместо матчей — погода, политика, экономика и даже рейтинги ИИ-моделей. И всё это с реальными деньгами и реальными последствиями.

В эксперименте использовались две платформы: Kalshi — с фиксированным набором из 29 рынков (одинаковым для всех моделей), и Polymarket — где модели сами искали интересные ставки по всей бирже. Это различие оказалось ключевым.

Правила игры: автономный трейдер без права на помощь

Каждая ИИ-модель работала полностью самостоятельно: каждые 15–45 минут она получала текущие рыночные данные, состояние своего портфеля, историю последних сделок — и принимала решения. Модели могли искать информацию в интернете, делать заметки для памяти между сессиями, покупать и продавать контракты. Люди не вмешивались ни в одну сделку.

Чтобы один неудачный bet не обнулял весь счёт, были введены ограничения: не более 15% капитала на одну позицию и не более 60% на один рынок. Это «защитный пояс», не дающий модели поставить всё на одну карту.

В первую группу (Cohort 1) вошли шесть моделей, торговавших живыми деньгами 57 дней (январь–март 2026). Во вторую (Cohort 2) — четыре более новые модели, работавшие три дня на виртуальном капитале.

Итоги на Kalshi: все проиграли, но по-разному

На платформе Kalshi итоги оказались безрадостными: все шесть моделей завершили эксперимент в минусе. Однако разброс результатов впечатляет:

  • glm-4.7 (Zhipu AI) — лучший результат: −16,0% (потеряно $1 601)
  • grok-4-20-checkpoint (xAI) — второе место: −20,0%
  • gpt-5.2 (OpenAI) — −20,5%
  • claude-opus-4-5 (Anthropic) — −25,9%
  • gemini-3-pro-preview (Google) — −30,5%
  • grok-4-1-fast-reasoning (xAI) — худший: −30,8% (потеряно $3 075)

Разница между лучшим и худшим результатом — $1 474. Казалось бы, небольшая сумма, но для понимания того, какие модели лучше «чувствуют» реальный мир, это важнейший сигнал. Особенно интересен факт: grok-4-20-checkpoint в какой-то момент вырос до +15,5% ($11 554) — единственная модель, показавшая существенный плюс, — но затем потерял всё за один неудачный день.

Это напоминает историю о трейдере, который 17 дней подряд угадывал направление рынка, а потом сделал несколько одновременных ставок в одном направлении — и все разом не сработали. Концентрация риска убила накопленную прибыль за один сеанс.

Сюрприз Polymarket: та же модель — совершенно другой результат

Параллельно все модели торговали на Polymarket — и тут картина кардинально изменилась. За тот же период (февраль–март) средние потери на Kalshi составили −22,6%, а на Polymarket — всего −1,1%. Одни и те же модели, одно и то же время, но совершенно разные результаты.

Лидером по точности ставок стал grok-4-20-checkpoint: 71,4% выигрышных сделок на Polymarket — лучший показатель среди всех моделей на обеих платформах. А gemini-3.1-pro-preview (вторая группа, виртуальный капитал) и вовсе заработал +6,02% за три дня — лучший абсолютный результат во всём эксперименте. При этом на Kalshi та же модель не совершила ни единой сделки.

Аналогия: это как теннисист, который проигрывает на грунте, но выигрывает на траве. Платформа — это покрытие. Меняется формат — меняются лидеры.

Ключевое различие: на Kalshi все модели видели одинаковый набор рынков. На Polymarket — каждая сама искала интересные ставки по всей бирже. Это «свободная охота» вместо «меню». И некоторые модели гораздо лучше справляются именно с самостоятельным поиском возможностей.

Погода как главный экзамен: неожиданный вывод

Анализ показал поразительный факт: на Kalshi от 71% до 97% всех сделок оказались ставками на... погоду. Не на политику, не на финансы, не на спорт — а на температуру воздуха и осадки. Просто потому, что погодные контракты составляли большую часть доступного набора.

Таким образом, весь эксперимент на Kalshi в значительной мере превратился в соревнование по прогнозированию погоды. Лучший результат у grok-4-20-checkpoint — 53,3% правильных ставок в погодных рынках. Худший у grok-4-1-fast-reasoning — всего 15,8%. Угадать бросок монеты и то сложнее.

Это как если бы экзамен по истории неожиданно оказался экзаменом по географии просто потому, что в билетах оказалось много вопросов про реки.

Что предсказывает успех: точность важнее усердия

Авторы выявили чёткую иерархию факторов, влияющих на результат:

  • 1. Начальная точность прогнозов — главный предиктор итогового результата. Кто правильно угадывал с первой ставки на рынке — тот финишировал выше.
  • 2. Умение наращивать выигрышные позиции — лучшие модели удваивали ставку, когда были правы, и это кратно увеличивало прибыль.
  • 3. Контроль размера позиции при неуверенности — дисциплина в риск-менеджменте.
  • 4. Качество выхода из позиции — держать ли до конца или продавать досрочно.
  • 5. Качество исследования — насколько оно коррелирует с правильными ставками.
  • 6. Количество исследований — НИКАКОЙ корреляции с результатом.

Последний пункт особенно важен. Самая «трудолюбивая» модель — claude-opus-4-5, совершившая 886 сделок и делавшая максимум запросов в интернет, — не стала лучшей. Самая «ленивая» по токенам — grok-4-20-checkpoint — показала лучший результат. Количество «думания» не предсказывает качество решений.

Аналогия: студент, который читает десять учебников перед экзаменом, не обязательно сдаст лучше того, кто читал один, но понял его глубже.

Портреты участников: у каждой модели — свой стиль

Помимо итоговых цифр, исследование выявило яркие «торговые личности» у каждой модели:

  • grok-4-20-checkpoint — «снайпер»: мало сделок, высокая точность. Торгует редко, но метко. Однако иногда делает слишком большие ставки в незнакомых категориях — и это его главная уязвимость.
  • gpt-5.2 — «осторожный консерватор»: выходит из позиций досрочно в 83% случаев. Наименьшие потери по отдельным сделкам. Дисциплинирован, но упускает потенциальную прибыль от удержания позиций до конца.
  • claude-opus-4-5 — «диверсификатор»: единственная модель, активно торговавшая в шести из семи категорий. Высокий объём, умеренная точность. Разнообразие снижает риски, но не компенсирует слабую погодную точность.
  • gemini-3-pro-preview — «азартный игрок»: 664 сделки, но лишь 28% выигрышей. Много торгует — много теряет. Активность без точности ускоряет потери.
  • grok-4-1-fast-reasoning — «упрямый концентрат»: мало сделок, но крупные. Проигрывал редко, но по-крупному. 15,4% выигрышей — худший показатель когорты.

Почему это важно: настоящий тест против синтетических задач

Большинство существующих ИИ-бенчмарков проверяют модели на задачах, которые уже известны создателям теста. Это всё равно что готовиться к экзамену по шпаргалкам: модели могут быть «обучены» на ответах, не демонстрируя реального понимания.

Prediction Arena принципиально иной: рынки предсказаний работают в реальном времени, их результаты нельзя угадать из обучающих данных, а проиграть здесь означает потерять настоящие деньги. Это делает бенчмарк устойчивым к «натаскиванию» и даёт честную оценку того, насколько ИИ понимает мир — не вчерашний, а сегодняшний.

Это как разница между тренировочными полётами на симуляторе и реальным полётом в сложных погодных условиях. Симулятор можно обмануть знанием сценариев. Реальность — нет.

Ограничения и честность исследования

Авторы честно перечисляют слабые стороны своей работы. Первая — рыночная микроструктура: ИИ часто не мог исполнить сделку просто потому, что не нашлось реального покупателя на другой стороне. Это создаёт асимметрию: виртуальные модели второй группы могли торговать свободнее, что частично завышает их результаты.

Вторая проблема — единый системный промпт для всех моделей. Возможно, некоторые из них могли бы торговать лучше с индивидуально настроенными инструкциями. Третья — случайность: 57 дней и 2 916 сделок дают статистически значимые результаты для первой группы, но три дня второй группы — это лишь предварительный сигнал, не более.

Заключение: деньги не лгут

Исследование Prediction Arena ставит важный вопрос: если ИИ так умён, почему он теряет деньги на рынке? Ответ авторов прагматичен: способность к прогнозированию реальных событий остаётся крайне неравномерной между моделями и сильно зависит от формата задачи. Лидер на одной платформе может быть аутсайдером на другой.

Но, пожалуй, самый важный вывод — методологический. Prediction Arena демонстрирует: чтобы по-настоящему оценить интеллект системы, нужно поставить её в условия, где ложь невозможна. Реальные деньги, реальные события, реальные последствия. Никаких синтетических тестов, никаких шпаргалок. Только мир таким, какой он есть.

В конце концов, лучшая проверка любого прогнозиста — не то, что он говорит, а то, готов ли он поставить на это деньги.

Источник: Jaden Zhang, Gardenia Liu, Oliver Johansson, Hileamlak Yitayew, Kamryn Ohly, Grace Li. «Prediction Arena: Benchmarking AI Models on Real-World Prediction Markets». arXiv:2604.07355v1 [cs.LG], 28 March 2026. Arcada Labs / Harvard University.

Подписывайтесь на канал чтобы не пропустить новые статьи