Браузерные ИИ-агенты — штука соблазнительная. Говоришь им «забронируй билет» или «найди дешевле» — и они сами лезут на сайты, кликают, листают, заполняют. Красота. Только есть нюанс, который портит всю идиллию. Большинство таких агентов существуют в двух вариантах. Первый — платные закрытые сервисы: умные, красиво упакованные, но что у них внутри — не твоё дело. Доверяй и плати. Второй — открытые проекты, где код лежит на виду, но «мозги» к нему нужно принести самому. Это как купить комплект мебели из ИКЕА без деталей крепления и инструкции. Некоммерческая команда Ai2 из Сиэтла — те самые, что делают открытые языковые модели — выпустила кое-что другое. Называется MolmoWeb. И это не просто ещё один агент. Большинство браузерных агентов работают так: получают «дерево элементов» страницы — по сути, список всех кнопок, полей и ссылок в текстовом виде — и ориентируются по нему. MolmoWeb устроен иначе: он получает скриншот и работает с ним как человек. На каждом шаге агент видит задачу, теку