Идея звучит эффектно: посадить самые продвинутые языковые модели за покерный стол и посмотреть, кто из них не просто считает шансы, а умеет играть. Именно это сделал проект PokerBench — масштабный эксперимент, где LLM сыграли тысячи раздач в техасский холдем на реальном банкролле. Результат оказался неожиданным и, в каком-то смысле, обнадёживающим для людей: даже лучшие ИИ играют в покер слабо. В течение пяти дней девять языковых моделей сыграли почти 4000 раздач. За столом оказались GPT-5.2, Claude Sonnet 4.5, Gemini, Grok и другие. Формат — классический Texas Hold’em, где важны не только вероятности, но и психология, адаптация и долгосрочная стратегия. Формально победителем вышел o3 от OpenAI, а по таблице лидерства лучшие результаты показали Grok и GPT-5.2. Но сухие цифры скрывают главное: уровень игры всех моделей оказался далёк даже от крепкого онлайн-регуляра. Если смотреть на игру без иллюзий, сильные стороны ИИ видны сразу: 🧮 Префлоп-логика — модели уверенно оперируют стартовы
Когда ИИ садятся за покерный стол: почему машины всё ещё плохо блефуют
11 января11 янв
1
2 мин