Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Google, OpenAI и Anthropic соревнуются в том, чей AI лучше всех играет в Pokémon.

Крупные ИИ-модели, включая Gemini и GPT, теперь проходят тесты на производительность, играя в старые игры Pokémon в прямом эфире на Twitch. Эта задача, требующая логического мышления и оценки рисков, сложнее Pong и помогает оценить стратегические способности ИИ на пути к AGI. Хотя существует бесчисленное множество бенчмарков и тестов для определения сообразительности и возможностей ИИ, один, возможно, менее очевидный тест, похоже, набирает обороты в сообществе ИИ. Согласно новому отчету, такие компании, как Google, OpenAI и Anthropic, теперь заставляют свои модели играть в старомодный Pokémon для оценки производительности, как сообщает The Wall Street Journal. «То, что сделало Pokémon увлекательной игрой и привлекло внимание сообщества [машинного обучения], заключается в том, что она гораздо менее ограничена, чем Pong или некоторые другие игры, на которых исторически это делали. Это довольно сложная задача для компьютерной программы», — рассказал изданию Дэвид Херши, руководитель отдел

Крупные ИИ-модели, включая Gemini и GPT, теперь проходят тесты на производительность, играя в старые игры Pokémon в прямом эфире на Twitch. Эта задача, требующая логического мышления и оценки рисков, сложнее Pong и помогает оценить стратегические способности ИИ на пути к AGI.

Хотя существует бесчисленное множество бенчмарков и тестов для определения сообразительности и возможностей ИИ, один, возможно, менее очевидный тест, похоже, набирает обороты в сообществе ИИ. Согласно новому отчету, такие компании, как Google, OpenAI и Anthropic, теперь заставляют свои модели играть в старомодный Pokémon для оценки производительности, как сообщает The Wall Street Journal. «То, что сделало Pokémon увлекательной игрой и привлекло внимание сообщества [машинного обучения], заключается в том, что она гораздо менее ограничена, чем Pong или некоторые другие игры, на которых исторически это делали. Это довольно сложная задача для компьютерной программы», — рассказал изданию Дэвид Херши, руководитель отдела ИИ в Anthropic. Все началось в прошлом году, когда Клод — передовая большая языковая модель (LLM) от Anthropic — была запущена в прямом эфире на Twitch Херши под названием «Клод играет в Pokémon». Дэвид является руководителем прикладного ИИ в Anthropic, что означает, что его работа заключается в помощи клиентам во внедрении ИИ, поэтому это всего лишь еще один способ тестирования моделей. Игровые начинания Клода вдохновили независимых разработчиков на запуск аналогичных трансляций «Джемини играет в Pokémon» и «GPT играет в Pokémon». Эти проекты получили официальное признание от Google и OpenAI, их лаборатории даже иногда вмешиваются, чтобы доработать модели. Такая тщательная работа позволила Gemini и GPT уже пройти Pokémon Blue, и теперь они перешли к сиквелам, но ни одна версия Claude еще не справилась с задачей. Последняя модель Opus 4.5 в настоящее время занята решением этой задачи в прямом эфире. Дэвид утверждает, что использование Pokémon для тестирования этих моделей ИИ весьма полезно, поскольку «это предоставляет нам отличный способ просто увидеть, как работает модель, и количественно оценить ее». В игре вам нужно повышать уровень, тренировать свой существующий состав и ловить новых покемонов, побеждая их тренеров залов. Это не простое линейное развитие, а то, что требует суждений. Вам часто приходится выбирать: либо рискнуть, сразившись с могущественным тренером, чтобы заполучить его покемона, либо отточить навыки тех, кто у вас уже есть. Люди преуспевают в принятии таких решений; они являются частью удовольствия, но для ИИ это тест на логическое мышление, оценку рисков и долгосрочное планирование, которые повлияют на общий прогресс. Следовательно, то, как модель выбирает игру, помогает исследователям лучше ее понять. Дэвид делится своими выводами с клиентами, улучшая «каркас» (harness), созданный вокруг ИИ и нацеленный на конкретные задачи. Каркас, по сути, относится к программной структуре, которая управляет моделью, помогая более осмысленно направлять ее ресурсы для удовлетворения требований конкретной задачи. Дэвид применяет то, что узнает из своих трансляций по Pokémon, к реальным клиентам, стремящимся повысить эффективность своих вычислений. По мере того как Big Tech движется к достижению общего искусственного интеллекта (AGI), инференс перейдет от простых ответов к долгосрочному, последовательному прогрессу, для чего игра вроде Pokémon подходит идеально. Чтобы закончить игру, нужно выиграть Лигу Покемонов, что требует нескольких шагов подряд, проверяя стратегическое планирование и управление ресурсами ИИ. Это также делает производительность легко измеримой, а не субъективной. Ранее мы освещали другое упражнение на возможности ИИ, где ряду моделей было предложено создать клон «Сапера». OpenAI Codex одержал победу в том состязании, а Gemini от Google даже не смог создать играбельную версию. Это была гораздо более простая задача, поэтому нечто столь же сложное, как даже ретро-RPG, безусловно, является шагом вперед в критериях оценки.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Hassam Nasir

Оригинал статьи