В октябре провели редкий эксперимент: шесть передовых LLM — Grok, DeepSeek, GPT‑5, Claude, Gemini, Qwen — посадили торговать крипто‑перпами на реальные деньги. Каждой модели — по $10 000 стартового капитала, единые правила, полная прозрачность сделок и логов мышления, запрет на вмешательство людей.
Итог к 24 октября (10:00): китайские Qwen 3 Max и DeepSeek — уверенно в плюсе, тогда как GPT‑5 и Gemini 2.5 Pro «сгорели» больше чем наполовину.
Организатор — Nof1 (Alpha Arena). Торговля шла на Hyperliquid, с лонгами/шортами, предоставлялись базовые индикаторы (MACD, RSI), состояние счёта и позиций. Для дополнительного «мета‑рынка» запустили прогнозные рынки на Kalshi и Polymarket: публика могла ставить на победителя.
Сводка результатов: резкий разлёт
- Qwen 3 Max: ~$15 594 (+≈56–60% к старту)
- DeepSeek: ~$12 926 (+≈30%)
- Grok 4, Claude 4.5: около −10% (околонулевые/умеренные просадки)
- Gemini 2.5 Pro: ~$3 792 (−61.9%)
- GPT‑5: ~$2 783 (−72.1%)
Контраст подчёркнут: единственные системно зарабатывающие модели — китайские. В тот же период западные флагманы показали хроническую убыточность.
«Личности» моделей: у ИИ проявился стиль
Наблюдение за журналами решений показало: модели различаются не только тактикой, но и устойчивыми поведенческими паттернами — по сути, «инвестиционными характерами».
- DeepSeek — агрессивный скальпер
- Частые сделки по «жёсткому» многосигнальному фильтру (например, RSI < 35, дивергенции объёма, удержание ключевых уровней).
- Крупные доли позиции (60–80%) при входе, дисциплинированные стопы (около −5%).
- Идея — множество небольших асимметричных трейдов с хорошим отношением риск/прибыль.
- Qwen 3 Max — минималист и «взрослый» риск‑менеджер
- Всего 22 сделки к моменту отсечки; редко более двух одновременных позиций.
- Низкая волатильность PnL, аккуратное держание трендовых лонгов (часто BTC).
- Высокая внутренняя уверенность решений (самооценка входов ~80/100), которая коррелирует с итогом.
- Grok 4 — «догматичный тренд‑следователь»
- Неплохое начало на тренде, но отсутствие гибкости на разворотах.
- Примеры: в падении набирал лонги; на отскоке — открывал шорты, последовательно ловя убытки.
- При смене показаний MACD предпочитал «верить системе», а не рынку — инерционный риск.
- GPT‑5 — торопливость и реактивность
- Частые входы без достаточного подтверждения сигналов, попытки «отыграть каждую волну».
- Итог — высокий оборот при отрицательном ожидании, «шумовое» трейдинг‑поведение.
- Gemini 2.5 Pro — «лудомания по‑машинному»
- 100+ сделок за короткий горизонт, любовь к плечу и квази‑мартингейл.
- Систематическое нарушение собственных правил: стопы игнорируются, тренды переигрываются, резкие перевороты позиций на рыночных разворотах.
- Комбинация частоты, плеча и инконсистентности — рецепт быстрой просадки.
Вывод, болезненно знакомый трейдерам: «умный» не равно «зарабатывающий». Важнее дисциплина, фильтрация сигналов и способность к самокоррекции.
Почему «рынок — лучшее из игр» для оценки ИИ
Идея Nof1 продолжает линию, начатую DeepMind: игры стали катализатором RL, но рынок — ещё сильнее:
- Нестационарность среды: распределения меняются, обратная связь нерегулярна, противники адаптивны.
- Стоимость ошибок реальна и немедленна: убыток нельзя «перепройти».
- Сложность растёт вместе с игроками: чем умнее агенты (включая ИИ), тем «хитрее» становится среда.
Поэтому «победа» здесь — не только доходность, но и устойчивость к смене режимов, отказоустойчивость к шуму, умение удерживать риск в коридоре.
Что это говорит о качестве самих моделей
- Обучение на принятие решений. Qwen/DeepSeek демонстрируют хороший «policy‑контур»: фильтры, размер позиции, стоп‑логика — как будто встроенная или качественно «пришитая» поверх LLM.
- Тайминг и «экономия действий». У лидеров — мало, но качественных входов; у аутсайдеров — много «прикосновений к рынку» без добавленной вероятности.
- Самоконсистентность. Наличие внутренних правил и их соблюдение коррелирует с PnL. Нарушение правил — верный маркер убыточности, даже при высокой «умности» базовой модели.
Китайские модели: практическая зрелость, а не только бенчмарки
Факт того, что обе в плюсе — китайские, укрепляет тезис последних месяцев: Qwen и DeepSeek не просто догнали по абстрактным тестам, но и переносят «интеллект» в грязную реальность — с управлением риском и операционной дисциплиной. Для индустрии это сигнал: битва смещается из лидербордов в реальные PnL‑кривые.
Ограничения эксперимента
- Короткий горизонт: считанные дни — это стресс‑скрин, а не долгосрочная статистика.
- Платформа/активы задают профиль риска; на других рынках (FX, акции, опционы) расклад может отличаться.
- Единый промпт снижает, но не убирает влияния «инженерии подсказок» и конфигов.
Тем не менее, различия столь велики, что качественный сигнал налицо: поведенческая архитектура стратегий у моделей радикально разная.
Практические уроки для разработчиков ИИ‑трейдеров
- Вшивайте риск‑менеджмент в политику, а не в пост‑фильтр: размер позиции, стоп‑правила, «не торгуй часто» — как реальные ограничения.
- Используйте многосигнальную валидацию входа и штраф за овертрейдинг.
- Тестируйте на смене режимов (тренд/флэт/высокая вола), а не только на «средних» днях.
- Мерьте не только доходность, но и риск‑скорректированные метрики и соблюдение правил.
Главное
Эксперимент показал: сегодня выигрывают не самые «болтливые» и «всеобъемлющие» LLM, а те, кто умеют экономить действия, фильтровать шум и признавать ошибки. В этой дисциплине Qwen 3 Max и DeepSeek на текущем отрезке убедительнее конкурентов. Если рынок — экзамен на реальный интеллект, то 2025 год уже расставляет новые акценты: от слов — к PnL.
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/