Найти в Дзене

ИИ на бирже: не все гении умеют зарабатывать

Мне всегда интересно наблюдать за экспериментами над ИИ общего назначения на рынках ценных бумаг, совсем недавно обсуждался эксперимент на крипторынке, но в сегодняшнем разборе будет торговля на американской фонде и Polymarket от Haofei Yu, Fenghai Li, Jiaxuan You, 5 ноября 2025, Университет Иллинойс. Исследователи запустили LiveTradeBench - платформу, где ИИ торгуют в реальном времени, на живых рынках: И вот что выяснилось: Во-первых, высокие баллы в рейтингах вроде LMArena (открытая веб-платформа для слепых дуэлей ИИ-моделей) не гарантируют успеха в трейдинге. На деле - обратная корреляция на Polymarket. Самые умные (думающие шаг за шагом) модели часто проигрывают, потому что слишком много думают. Например, DeepSeek-R1 и Qwen3-Thinking показали самую высокую волатильность и крупные просадки. Их чрезмерное внутреннее обсуждение приводило к перестраховке, хаотичным решениям и ошибкам. Во-вторых, у каждой модели - свой стиль и они его придерживаются без внешних инструкций. Claude-Opus

Мне всегда интересно наблюдать за экспериментами над ИИ общего назначения на рынках ценных бумаг, совсем недавно обсуждался эксперимент на крипторынке, но в сегодняшнем разборе будет торговля на американской фонде и Polymarket от Haofei Yu, Fenghai Li, Jiaxuan You, 5 ноября 2025, Университет Иллинойс.

Исследователи запустили LiveTradeBench - платформу, где ИИ торгуют в реальном времени, на живых рынках:

  • на акциях вроде Apple, Nvidia и JPMorgan
  • на ставках на Polymarket, где решают, например, Будет ли перемирие на Украине в 2025?

И вот что выяснилось:

Во-первых, высокие баллы в рейтингах вроде LMArena (открытая веб-платформа для слепых дуэлей ИИ-моделей) не гарантируют успеха в трейдинге. На деле - обратная корреляция на Polymarket. Самые умные (думающие шаг за шагом) модели часто проигрывают, потому что слишком много думают. Например, DeepSeek-R1 и Qwen3-Thinking показали самую высокую волатильность и крупные просадки. Их чрезмерное внутреннее обсуждение приводило к перестраховке, хаотичным решениям и ошибкам.

Во-вторых, у каждой модели - свой стиль и они его придерживаются без внешних инструкций. Claude-Opus играет консервативно: меньше риска, меньше просадок и прибыли. GPT-5 и Kimi - напротив, готовы вкладываться под самые рискованные активы, гонясь за прибылью. А Llama4-Scout держит подушку безопасности - до 20% портфеля в кэше.

В-третьих, все модели читали новости. Но одни реагировали на слухи, другие - на факты. Например, после оптимистичных заголовков про Зеленского и США 13 октября многие ИИ купили ставку «Будет перемирие на Украине» на Polymarket. Но цена на Polymarket почти не изменилась - события оказались не так значимы. А вот 17 октября, когда Зеленский приехал в Белый дом, ИИ, которые подождали подтверждения, заработали. Это ключевое различие: реагировать - и действовать осмысленно.

В-четвертых, для моделей биржа не тоже самое что и Polymarket. Успех в акциях не гарантирует успеха в прогнозных рынках. Polymarket - мир геополитики, слухов и мгновенных реакций. Акции - фундамент, отчётность, долгосрочные тренды. И многие ИИ просто не справляются с этой скоростью. Например, GPT-4.1 - лидер по доходности на бирже +6%, но проигрывает 33% на Polymarket.

Анализ торговых решений показывает, что агенты на основе LLM опираются одновременно на исторические ценовые тренды, новости рынка, историю распределения активов, проявляя различные поведенческие паттерны в экстремальных условиях. В ходе 50-дневных живых экспериментов лучшие результаты в фондовом рынке показали GPT-4.1 +6.25% доходность (но проваливается в Polymarket -33.69%) и GPT-5 +5.31%. Qwen2.5-72B-Instruct, напротив, показывает умеренный, но стабильный результат в обоих рынках (+1.63% в Polymarket, +5.15% в акциях).

Ссылка на исследование

Ссылка на проект

Если ты интересуешься исследованиями в области ИИ присоединяйся к нашему сообществу!