27 подписчиков

Когда топ модели ИИ выпускают «торговать криптой»: почему заработали только китайские — и что это показывает о реальном интеллекте

25 октября25 окт

5 мин

В октябре провели редкий эксперимент: шесть передовых LLM — Grok, DeepSeek, GPT‑5, Claude, Gemini, Qwen — посадили торговать крипто‑перпами на реальные деньги. Каждой модели — по $10 000 стартового капитала, единые правила, полная прозрачность сделок и логов мышления, запрет на вмешательство людей.

Итог к 24 октября (10:00): китайские Qwen 3 Max и DeepSeek — уверенно в плюсе, тогда как GPT‑5 и Gemini 2.5 Pro «сгорели» больше чем наполовину.

Организатор — Nof1 (Alpha Arena). Торговля шла на Hyperliquid, с лонгами/шортами, предоставлялись базовые индикаторы (MACD, RSI), состояние счёта и позиций. Для дополнительного «мета‑рынка» запустили прогнозные рынки на Kalshi и Polymarket: публика могла ставить на победителя.

Сводка результатов: резкий разлёт

Qwen 3 Max: ~$15 594 (+≈56–60% к старту)
DeepSeek: ~$12 926 (+≈30%)
Grok 4, Claude 4.5: около −10% (околонулевые/умеренные просадки)
Gemini 2.5 Pro: ~$3 792 (−61.9%)
GPT‑5: ~$2 783 (−72.1%)

Контраст подчёркнут: единственные системно зарабатывающие модели — китайские. В тот же период западные флагманы показали хроническую убыточность.

«Личности» моделей: у ИИ проявился стиль

Наблюдение за журналами решений показало: модели различаются не только тактикой, но и устойчивыми поведенческими паттернами — по сути, «инвестиционными характерами».

DeepSeek — агрессивный скальпер
Частые сделки по «жёсткому» многосигнальному фильтру (например, RSI < 35, дивергенции объёма, удержание ключевых уровней).
Крупные доли позиции (60–80%) при входе, дисциплинированные стопы (около −5%).
Идея — множество небольших асимметричных трейдов с хорошим отношением риск/прибыль.
Qwen 3 Max — минималист и «взрослый» риск‑менеджер
Всего 22 сделки к моменту отсечки; редко более двух одновременных позиций.
Низкая волатильность PnL, аккуратное держание трендовых лонгов (часто BTC).
Высокая внутренняя уверенность решений (самооценка входов ~80/100), которая коррелирует с итогом.
Grok 4 — «догматичный тренд‑следователь»
Неплохое начало на тренде, но отсутствие гибкости на разворотах.
Примеры: в падении набирал лонги; на отскоке — открывал шорты, последовательно ловя убытки.
При смене показаний MACD предпочитал «верить системе», а не рынку — инерционный риск.
GPT‑5 — торопливость и реактивность
Частые входы без достаточного подтверждения сигналов, попытки «отыграть каждую волну».
Итог — высокий оборот при отрицательном ожидании, «шумовое» трейдинг‑поведение.
Gemini 2.5 Pro — «лудомания по‑машинному»
100+ сделок за короткий горизонт, любовь к плечу и квази‑мартингейл.
Систематическое нарушение собственных правил: стопы игнорируются, тренды переигрываются, резкие перевороты позиций на рыночных разворотах.
Комбинация частоты, плеча и инконсистентности — рецепт быстрой просадки.

Вывод, болезненно знакомый трейдерам: «умный» не равно «зарабатывающий». Важнее дисциплина, фильтрация сигналов и способность к самокоррекции.

Почему «рынок — лучшее из игр» для оценки ИИ

Идея Nof1 продолжает линию, начатую DeepMind: игры стали катализатором RL, но рынок — ещё сильнее:

Нестационарность среды: распределения меняются, обратная связь нерегулярна, противники адаптивны.
Стоимость ошибок реальна и немедленна: убыток нельзя «перепройти».
Сложность растёт вместе с игроками: чем умнее агенты (включая ИИ), тем «хитрее» становится среда.

Поэтому «победа» здесь — не только доходность, но и устойчивость к смене режимов, отказоустойчивость к шуму, умение удерживать риск в коридоре.

Что это говорит о качестве самих моделей

Обучение на принятие решений. Qwen/DeepSeek демонстрируют хороший «policy‑контур»: фильтры, размер позиции, стоп‑логика — как будто встроенная или качественно «пришитая» поверх LLM.
Тайминг и «экономия действий». У лидеров — мало, но качественных входов; у аутсайдеров — много «прикосновений к рынку» без добавленной вероятности.
Самоконсистентность. Наличие внутренних правил и их соблюдение коррелирует с PnL. Нарушение правил — верный маркер убыточности, даже при высокой «умности» базовой модели.

Китайские модели: практическая зрелость, а не только бенчмарки

Факт того, что обе в плюсе — китайские, укрепляет тезис последних месяцев: Qwen и DeepSeek не просто догнали по абстрактным тестам, но и переносят «интеллект» в грязную реальность — с управлением риском и операционной дисциплиной. Для индустрии это сигнал: битва смещается из лидербордов в реальные PnL‑кривые.

Ограничения эксперимента

Короткий горизонт: считанные дни — это стресс‑скрин, а не долгосрочная статистика.
Платформа/активы задают профиль риска; на других рынках (FX, акции, опционы) расклад может отличаться.
Единый промпт снижает, но не убирает влияния «инженерии подсказок» и конфигов.

Тем не менее, различия столь велики, что качественный сигнал налицо: поведенческая архитектура стратегий у моделей радикально разная.

Практические уроки для разработчиков ИИ‑трейдеров

Вшивайте риск‑менеджмент в политику, а не в пост‑фильтр: размер позиции, стоп‑правила, «не торгуй часто» — как реальные ограничения.
Используйте многосигнальную валидацию входа и штраф за овертрейдинг.
Тестируйте на смене режимов (тренд/флэт/высокая вола), а не только на «средних» днях.
Мерьте не только доходность, но и риск‑скорректированные метрики и соблюдение правил.

Главное

Эксперимент показал: сегодня выигрывают не самые «болтливые» и «всеобъемлющие» LLM, а те, кто умеют экономить действия, фильтровать шум и признавать ошибки. В этой дисциплине Qwen 3 Max и DeepSeek на текущем отрезке убедительнее конкурентов. Если рынок — экзамен на реальный интеллект, то 2025 год уже расставляет новые акценты: от слов — к PnL.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/