Недавно один исследователь, Адриан де Винтер, решил испытать возможности языковой модели GPT-4 в культовой видеоигре DOOM. Для этого он использовал мультимодальный вариант GPT-4V, способный принимать изображения в качестве входных данных. Де Винтер разработал специальный компонент Vision, который делает скриншоты из игрового движка и возвращает структурные описания состояния игры. Затем эта информация объединяется с моделью агента, вызывающей GPT-4 для принятия решений на основе визуального ввода и предыдущей истории. Модель агента преобразует ответы ИИ в команды, понятные игровому движку. Таким образом, GPT-4 получает картинку с игровым процессом, анализирует её, принимает решение и отправляет команду обратно в DOOM. Благодаря этой конструкции ИИ способен перемещаться по уровню, открывать двери, стрелять и сражаться с врагами. Однако у GPT-4 есть некоторые недостатки как у игрока. Например, если противник выходит за пределы экрана, ИИ "забывает" о его существовании, хотя враг оста