44 подписчика

От чата к делу! Как LAM-модели научились нажимать на кнопки вместо нас?

10 июня10 июн

4 мин

Долгое время наше общение с искусственным интеллектом напоминало разговор с очень умным, но полностью парализованным профессором. Он мог процитировать Канта, написать код для квантового симулятора или составить план тренировок, но не был способен даже заказать себе пиццу. Мы привыкли к этому разделению: ИИ думает и пишет, а мы — «кожаные мешки» — копируем текст, переключаем вкладки, вбиваем данные карт и нажимаем на кнопки подтверждения. В 2024 и 2025 годах этот барьер начал трещать, а сегодня автономные агенты действия (Large Action Models) окончательно превратили браузеры и операционные системы в послушные инструменты, где человеческий клик становится атавизмом. Суть перехода от LLM к LAM проста: нам надоело разговаривать. Популярность интерфейсов в духе «чат-бот» была лишь промежуточным этапом. Настоящая ценность технологий не в генерации очередного письма коллегам, а в том, чтобы это письмо привело к конкретному результату в физическом или цифровом мире без нашего микроменеджмента

Оглавление

Почему API больше не панацея
Технический бэкграунд: от пикселей к смыслам

Суть перехода от LLM к LAM проста: нам надоело разговаривать. Популярность интерфейсов в духе «чат-бот» была лишь промежуточным этапом. Настоящая ценность технологий не в генерации очередного письма коллегам, а в том, чтобы это письмо привело к конкретному результату в физическом или цифровом мире без нашего микроменеджмента. LAM-модели — это системы, которые обучаются не только на текстах, но и на видеозаписях взаимодействия человека с интерфейсами. Они понимают структуру сайтов, логику приложений и, что самое важное, умеют прогнозировать следующее необходимое действие в цепочке шагов.

Почему API больше не панацея

Раньше считалось, что будущее за бесшовной интеграцией через API. Казалось, что все сервисы договорятся, свяжутся через условный Zapier, и мы будем управлять миром через одну магическую кнопку. Реальность оказалась прозаичнее: поддержка API — это дорого, медленно и часто ограничено интересами корпораций. Многие разработчики намеренно закрывают доступ к функционалу, чтобы удерживать пользователя внутри своего интерфейса.

LAM решают эту проблему грубой силой и интеллектом. Вместо того чтобы просить разрешения у владельца сайта, агент «смотрит» на экран так же, как человек. Он видит кнопку «Оплатить», понимает, где находится поле для промокода, и знает, что делать, если внезапно выскочило окно с предложением подписаться на рассылку. Это семантическое понимание интерфейса освобождает технологию от кандалов проприетарных протоколов. Теперь агент может забронировать столик в ресторане, у которого нет API, просто пройдя по всем шагам на его старом и кривом сайте.

Технический бэкграунд: от пикселей к смыслам

Как это работает внутри? В основе современных LAM лежит мультимодальность. Модель получает на вход скриншот (или поток кадров) и дерево элементов DOM (если речь о вебе). Специальный визуальный энкодер преобразует графическую информацию в векторное представление, которое сопоставляется с текстовым запросом пользователя.

Главная сложность здесь не в том, чтобы найти кнопку, а в долгосрочном планировании. Если вы просите агента «организовать поездку в Тбилиси на выходные», он должен разбить эту задачу на десятки подзадач: поиск билетов, проверка отелей, сопоставление дат, ввод паспортных данных. В 2024 году агенты часто «зацикливались» или ломались на втором-третьем шаге. Сегодня проблема галлюцинаций в действиях решается через механизмы самопроверки и промежуточного подтверждения (Reason-without-Acting). Агент сначала проговаривает план действий про себя, проверяет его на логические ошибки и только потом эмулирует клик.

Проблема доверия и кошелек на доверенности

Главный стопор внедрения автономных агентов лежит не в области математики, а в области психологии и безопасности. Готовы ли вы дать ИИ-агенту доступ к своей банковской карте? А к основной почте? Когда мы позволяем программе совершать действия от нашего имени, риск ошибки возрастает экспоненциально. Один неверно понятый сарказм — и вот вы уже счастливый обладатель невозвратного тура на Северный полюс вместо Северного Кипра.

Разработчики решают это через создание «песочниц» и внедрение лимитов на транзакции. В 2026 году стандарт де-факто — это агент, который имеет свой изолированный браузерный профиль и виртуальную карту с ограниченным балансом. Тем не менее, юридический вопрос ответственности за действия агента всё ещё остается серой зоной. Если ваш LAM-бот случайно нарушил правила сервиса или совершил неудачную сделку, виноваты вы, так как это «ваш» цифровой отпечаток.

Инфраструктурный сдвиг

Появление по-настоящему рабочих LAM меняет подход к дизайну приложений. На протяжении тридцати лет мы создавали интерфейсы для людей: делали их яркими, интуитивными, боролись за внимание пользователя. Теперь же растет объем «невидимого трафика». Сайты начинают оптимизировать не для человеческих глаз, а для агентских парсеров. Мы возвращаемся к идее семантической паутины, но на стероидах.

Вместо перегруженных дашбордов в моду входят лаконичные протоколы передачи данных. Если агент может совершить покупку за 0.5 секунды, ему не нужны баннеры и анимации. Это создает забавный парадокс: маркетологи тратят миллионы на привлечение внимания людей, в то время как решения всё чаще принимают алгоритмы, полностью игнорирующие визуальный шум.

Смартфоны тоже перестали быть просто набором иконок. Мы уходим от концепции App-centric к Action-centric. Нам не важно, какое приложение откроет агент для вызова такси или заказа продуктов. Важен результат. Это бьет по экономике внимания, на которой строились гиганты последних десятилетий. Если вы не видите рекламу в приложении, потому что за вас туда зашел бот, бизнес-модель «бесплатно в обмен на данные» начинает рассыпаться.

Процесс замещения рутины алгоритмами не будет мгновенным, но он уже необратим. Мы делегируем ИИ сначала самые скучные задачи — заполнение таблиц, отчетность, поиск информации. Затем пойдут более сложные бытовые сценарии. В конечном счете интерфейс превращается в тонкую прослойку, которая нужна лишь тогда, когда агенту требуется наше финальное «да» или когда мы хотим получить эстетическое удовольствие от процесса. Во всех остальных случаях экран скоро будет оставаться выключенным.

Гаджеты и электроника

5,73 млн интересуются