Найти в Дзене

OpenAI выпустила GPT-5.4: модель для AI-агентов и управления ПК

OpenAI выпустила флагманскую модель GPT-5.4, заточенную под «агентный» сценарий. Теперь LLM не только отвечает в чате, но и может выполнять действия на компьютере — кликать мышью, вводить команды с клавиатуры и редактировать файлы, если вы подключаете её через API или Codex. В ChatGPT модель доступна под названием GPT-5.4 Thinking. Параллельно её добавили в OpenAI API и в Codex, включая версию Codex для Windows. GPT-5.4 — это первый «общего назначения» GPT от OpenAI, который в связке с агентной системой может реально управлять вашим ПК. Речь не про магию внутри модели: она выдаёт команды вроде «кликни сюда», а агентный слой на компьютере выполняет клик и возвращает результат. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО На практике это сводится к трём ключевым возможностям: Если вы помните эпоху «AI подсказывает, куда нажать», то тут концепция меняется. Вы формулируете задачу, а дальше агент делает клики сам. Ограничение жёсткое: управление ПК работает, когда вы
Оглавление
   OpenAI выпустила GPT-5.4: модель для AI-агентов и управления ПК
OpenAI выпустила GPT-5.4: модель для AI-агентов и управления ПК

OpenAI выпустила флагманскую модель GPT-5.4, заточенную под «агентный» сценарий. Теперь LLM не только отвечает в чате, но и может выполнять действия на компьютере — кликать мышью, вводить команды с клавиатуры и редактировать файлы, если вы подключаете её через API или Codex.

В ChatGPT модель доступна под названием GPT-5.4 Thinking. Параллельно её добавили в OpenAI API и в Codex, включая версию Codex для Windows.

Чем GPT-5.4 отличается от прошлых «просто чат-ботов»

GPT-5.4 — это первый «общего назначения» GPT от OpenAI, который в связке с агентной системой может реально управлять вашим ПК. Речь не про магию внутри модели: она выдаёт команды вроде «кликни сюда», а агентный слой на компьютере выполняет клик и возвращает результат.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

На практике это сводится к трём ключевым возможностям:

  • Компьютерные действия: клики мышью, ввод с клавиатуры, работа с окнами.
  • Работа с файлами: модель может инициировать правки и операции с файлами на системе через агент.
  • Зрение через скриншоты: модель «видит» снимки экрана, поэтому может ориентироваться в браузере и интерфейсах программ.

Если вы помните эпоху «AI подсказывает, куда нажать», то тут концепция меняется. Вы формулируете задачу, а дальше агент делает клики сам.

Где GPT-5.4 реально получает доступ к компьютеру, а где нет

Ограничение жёсткое: управление ПК работает, когда вы используете GPT-5.4 через OpenAI API или через Codex. В режиме GPT-5.4 Thinking внутри ChatGPT (в десктопном приложении или веб-интерфейсе) модель остаётся «запертой» в чатбоксе.

При этом в ChatGPT остаются интеграции с внешними сервисами и приложениями. В списке упоминаются Google Drive, Spotify, Adobe Photoshop и другие. Но это не то же самое, что полный контроль над вашим рабочим столом.

Что улучшили внутри: таблицы, рассуждения и план перед запуском задачи

OpenAI добавила в GPT-5.4 несколько практичных улучшений, которые важны именно для «агентных» задач. Модель прокачали в работе с таблицами, а ещё она стала эффективнее рассуждать и решать задачи с меньшим числом токенов. Это напрямую влияет на стоимость запросов, если вы гоняете модель через API.

Ещё одна важная деталь — модель умеет показывать «upfront»-план перед выполнением сложной задачи. То есть сначала она описывает шаги, а уже потом начинает действовать. Это даёт шанс вовремя поправить курс, пока агент не полез менять файлы или кликать в бухгалтерии.

Официальное описание нововведений OpenAI собрано на странице: Introducing GPT-5.4.

Почему это не «первый GPT, который умеет команды», но шаг шире

OpenAI уже делала модели и конфигурации, заточенные под выполнение команд, правку файлов и частичную навигацию по интерфейсам — прежде всего в линейке Codex. Разница GPT-5.4 в том, что это первый «general-purpose» GPT, который разворачивает computer-use сценарий на уровень выше: с просмотром веба, работой со скриншотами и взаимодействием с обычными программами на ПК.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

В качестве примера приводят сценарий уровня «сделай сверку в Quicken». Теоретически агент с GPT-5.4 может сам запустить приложение, пройти по меню и выполнить задачу. Но для таких чувствительных вещей логичнее держать человека рядом и смотреть, что именно агент делает в окнах и какие файлы трогает.

GPT-5.4 уже доступна в ChatGPT как GPT-5.4 Thinking, а также через OpenAI API и Codex, причём контроль ПК заявлен именно для API и Codex.

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

OpenAI выпустила GPT-5.4: модель для AI-агентов и управления ПК ⚡️