17 подписчиков

GPT 5.4 впервые превзошла человека в управлении компьютером

12 марта12 мар

5 мин

Когда искусственный интеллект перестаёт просто советовать и начинает сам двигать мышкой по экрану, это уже не эволюция, а настоящий прорыв. Модель GPT 5.4 от OpenAI сделала именно такой шаг. Она видит рабочий стол, понимает интерфейсы приложений и выполняет действия точно так, как это делает опытный пользователь. Раньше подобные возможности казались фантастикой или работали только в лабораториях. Теперь они стали реальностью и сразу показали результат, который заставляет переосмыслить, где заканчиваются возможности человека и начинаются возможности машины. Релиз произошёл всего несколько дней назад, но уже успел перевернуть представление о том, на что способен обычный чат. Модель не просто отвечает на вопросы. Она берёт управление в свои руки и доводит задачи до конца. Это уже не помощник, а полноценный исполнитель, который видит экран и действует. GPT 5.4 получила встроенную возможность работать с графическим интерфейсом напрямую. Она анализирует скриншоты в реальном времени, распозна

Оглавление

Как модель научилась видеть и управлять экраном
Цифры которые заставляют задуматься о будущем работы
Эффективность мышления и работа с огромными объёмами данных

Релиз произошёл всего несколько дней назад, но уже успел перевернуть представление о том, на что способен обычный чат. Модель не просто отвечает на вопросы. Она берёт управление в свои руки и доводит задачи до конца. Это уже не помощник, а полноценный исполнитель, который видит экран и действует.

Как модель научилась видеть и управлять экраном

GPT 5.4 получила встроенную возможность работать с графическим интерфейсом напрямую. Она анализирует скриншоты в реальном времени, распознаёт кнопки, меню, окна и текстовые поля. После этого модель генерирует точные команды для мыши и клавиатуры. Иногда она даже пишет небольшой код на Playwright, чтобы автоматизировать браузерные действия.

Такой подход кардинально отличается от старых методов, где искусственный интеллект зависел только от текстовых команд или заранее написанных скриптов. Теперь всё происходит как у живого человека. Смотрит на экран, понимает, что нужно сделать, и кликает туда, куда требуется. Представьте, что вы просите модель открыть таблицу в Excel, собрать данные из нескольких источников, построить график и сохранить отчёт в нужной папке. Она последовательно переключается между программами, заполняет поля, проверяет промежуточные результаты и доводит дело до конца.

Технически это работает через комбинацию визуального анализа и прямого взаимодействия. Модель получает скриншот, обрабатывает его с высокой точностью даже при большом разрешении и принимает решение о следующем шаге. Если что-то пошло не так, она возвращается назад и корректирует действие. Такой цикл планирования и проверки стал одной из главных причин, почему результаты оказались выше человеческого уровня.

Цифры которые заставляют задуматься о будущем работы

Результаты тестов говорят громче любых слов. На бенчмарке OSWorld Verified, который проверяет навигацию по рабочему столу через скриншоты и реальные действия, GPT 5.4 достигла 75 процентов успешно выполненных задач. Человек в среднем показывает 72,4 процента. Предыдущая версия модели справлялась лишь с 47,3 процента. Это первый случай, когда искусственный интеллект уверенно обошёл человека в реальной работе с компьютером.

Не менее впечатляюще выглядят и другие показатели. В профессиональном тесте GDPval модель сравнялась или превзошла реальных специалистов в 83 процентах задач из сорока четырёх разных профессий. Это заметный скачок по сравнению с предыдущей версией. На веб-навигации тоже всё серьёзно. В WebArena Verified результат составил 67,3 процента, а в Online-Mind2Web с использованием только скриншотов модель показала 92,8 процента успеха.

Такие цифры не случайны. Они отражают глубокие изменения внутри модели. Она лучше планирует последовательность действий, чаще проверяет промежуточные результаты и реже допускает ошибки в рассуждениях. Всё это вместе создаёт ощущение, что перед нами уже не просто инструмент, а надёжный коллега, который может взять на себя рутину.

Эффективность мышления и работа с огромными объёмами данных

Разработчики уделили особое внимание практичности. Новая система поиска инструментов позволяет модели не загружать сразу все доступные функции. Она запрашивает только нужные данные по мере необходимости. Благодаря этому потребление токенов в сложных сценариях сократилось почти вдвое. Это особенно важно для агентных систем, где приходится работать с большим количеством внешних сервисов.

Стандартный контекст составляет 272 тысячи токенов. При необходимости можно расширить его до одного миллиона токенов в специальном режиме для Codex и API. Такой объём позволяет загружать целые проекты, большие базы данных или длинные цепочки документов и сохранять полную картину на протяжении всей работы. Модель уже не теряет нить в длинных задачах и может планировать действия на много шагов вперёд.

Дополнительно улучшилось отображение процесса мышления. Пользователь теперь видит план действий заранее и может скорректировать его на середине ответа. Это как будто ты стоишь рядом с коллегой и говоришь: подожди, давай сделаем вот так. Такой подход сильно повышает контроль и точность финального результата.

Где новая технология меняет правила игры

Сильнее всего преимущества проявляются в тех областях, где приходится постоянно переключаться между разными программами и выполнять повторяющиеся операции. Финансовые аналитики могут поручить модели сбор данных из десятков таблиц, расчёты и формирование сводных отчётов. Инженеры получают помощь в анализе чертежей и автоматическом обновлении документации. Юристы ускоряют поиск нужных пунктов в объёмных контрактах и подготовку ответов на запросы.

Особый интерес представляют агентные системы, построенные на базе GPT 5.4. Они способны самостоятельно вести многоэтапные процессы: обрабатывать входящие документы, обновлять базы данных, готовить материалы для встреч и даже тестировать пользовательские интерфейсы приложений. Человек при этом остаётся на ключевых точках принятия решений и может вмешаться в любой момент.

Вот несколько областей, где эффект особенно заметен:

Автоматизация рутинных операций в офисных пакетах и корпоративных системах
Обработка и анализ больших массивов документов и отчётов
Тестирование интерфейсов и создание прототипов приложений
Мониторинг изменений в базах данных и генерация сводок
Подготовка презентаций и визуальных материалов с учётом эстетики

Каждый из этих сценариев раньше требовал часов ручной работы. Теперь время сокращается в разы, а качество при этом растёт.

Что ждёт специалистов и как меняется подход к работе

Появление таких возможностей ставит перед профессионалами важный вопрос. Вместо того чтобы тратить время на механические действия, они могут сосредоточиться на задачах, где нужна человеческая интуиция, творчество и стратегическое мышление. Модель пока не заменяет человека полностью. Она лучше всего работает под чётким руководством и всё равно требует финальной проверки. Однако барьер между простым собеседником и реальным исполнителем снизился так сильно, что это уже невозможно игнорировать.

Интересно наблюдать, как быстро меняются границы возможного. Ещё вчера искусственный интеллект только предлагал идеи. Сегодня он уже сам их реализует. Те, кто начнёт осваивать новые инструменты прямо сейчас, получат серьёзное преимущество в скорости и качестве работы. Остальным предстоит постепенно догонять.

GPT 5.4 показывает, что момент, когда искусственный интеллект станет привычным коллегой в самых разных сферах, наступил раньше, чем многие ожидали. Это не просто новая версия. Это изменение самого подхода к тому, как мы взаимодействуем с компьютером. И самое главное, что эти изменения происходят прямо сейчас, на наших глазах, и продолжают набирать обороты с каждым днём.