Крупные ИИ-модели, включая Gemini и GPT, теперь проходят тесты на производительность, играя в старые игры Pokémon в прямом эфире на Twitch. Эта задача, требующая логического мышления и оценки рисков, сложнее Pong и помогает оценить стратегические способности ИИ на пути к AGI. Хотя существует бесчисленное множество бенчмарков и тестов для определения сообразительности и возможностей ИИ, один, возможно, менее очевидный тест, похоже, набирает обороты в сообществе ИИ. Согласно новому отчету, такие компании, как Google, OpenAI и Anthropic, теперь заставляют свои модели играть в старомодный Pokémon для оценки производительности, как сообщает The Wall Street Journal. «То, что сделало Pokémon увлекательной игрой и привлекло внимание сообщества [машинного обучения], заключается в том, что она гораздо менее ограничена, чем Pong или некоторые другие игры, на которых исторически это делали. Это довольно сложная задача для компьютерной программы», — рассказал изданию Дэвид Херши, руководитель отдел
Google, OpenAI и Anthropic соревнуются в том, чей AI лучше всех играет в Pokémon.
24 января24 янв
1
3 мин