Найти в Дзене

MolmoWeb от Ai2: браузерный агент без чёрного ящика

Браузерные ИИ-агенты — штука соблазнительная. Говоришь им «забронируй билет» или «найди дешевле» — и они сами лезут на сайты, кликают, листают, заполняют. Красота. Только есть нюанс, который портит всю идиллию. Большинство таких агентов существуют в двух вариантах. Первый — платные закрытые сервисы: умные, красиво упакованные, но что у них внутри — не твоё дело. Доверяй и плати. Второй — открытые проекты, где код лежит на виду, но «мозги» к нему нужно принести самому. Это как купить комплект мебели из ИКЕА без деталей крепления и инструкции. Некоммерческая команда Ai2 из Сиэтла — те самые, что делают открытые языковые модели — выпустила кое-что другое. Называется MolmoWeb. И это не просто ещё один агент. Большинство браузерных агентов работают так: получают «дерево элементов» страницы — по сути, список всех кнопок, полей и ссылок в текстовом виде — и ориентируются по нему. MolmoWeb устроен иначе: он получает скриншот и работает с ним как человек. На каждом шаге агент видит задачу, теку
Оглавление

Браузерные ИИ-агенты — штука соблазнительная. Говоришь им «забронируй билет» или «найди дешевле» — и они сами лезут на сайты, кликают, листают, заполняют. Красота.

Только есть нюанс, который портит всю идиллию.

Большинство таких агентов существуют в двух вариантах. Первый — платные закрытые сервисы: умные, красиво упакованные, но что у них внутри — не твоё дело. Доверяй и плати. Второй — открытые проекты, где код лежит на виду, но «мозги» к нему нужно принести самому. Это как купить комплект мебели из ИКЕА без деталей крепления и инструкции.

Некоммерческая команда Ai2 из Сиэтла — те самые, что делают открытые языковые модели — выпустила кое-что другое. Называется MolmoWeb. И это не просто ещё один агент.

Он смотрит на экран, а не читает код

Большинство браузерных агентов работают так: получают «дерево элементов» страницы — по сути, список всех кнопок, полей и ссылок в текстовом виде — и ориентируются по нему. MolmoWeb устроен иначе: он получает скриншот и работает с ним как человек.

На каждом шаге агент видит задачу, текущий скриншот, историю того, что уже сделал, и адрес страницы. Дальше сначала как бы «думает вслух» — формулирует, почему собирается сделать именно это действие — и потом выполняет: кликает по конкретным координатам, вводит текст, скроллит, переключает вкладки.

Смысл подхода простой: раз агент ориентируется по картинке, ему всё равно, как устроена страница под капотом. Хоть Chrome, хоть что угодно.

Правда, с баннером «Скидка 90% только сегодня» он пока тоже разбирается не всегда.

Открыли не только результат, но и весь урок

Вот тут начинается главное.

Ai2 выложили не просто готовую модель, а ещё и датасет, на котором она обучалась. Называется MolmoWebMix, и он большой: больше 30 тысяч записей того, как реальные люди выполняли задачи в браузере шаг за шагом, охват — больше тысячи сайтов, плюс несколько сотен тысяч более мелких демонстраций отдельных действий. Ещё там лежат больше двух миллионов пар «вопрос — ответ по скриншоту»: чтобы агент понимал интерфейс и не путал кнопку «Продолжить» с чем попало.

Для большинства «открытых» проектов это нетипично. Обычно в открытый доступ выкладывают веса — то есть готовую обученную модель — а как именно её учили и на чём, остаётся за кадром. Здесь же отдали весь реквизит вместе с инструкцией.

Модель доступна в двух размерах — условно «поменьше» и «побольше». Второй умнее, первый быстрее.

Где спотыкается

Ai2 сами честно перечисляют, что пока не работает как надо.

Иногда агент ошибается при чтении текста со скриншота — особенно если шрифт мелкий или приглушённый. Плохо справляется с перетаскиванием элементов мышью. Хуже работает, если задача сформулирована размыто или, наоборот, слишком жёстко ограничена.

И главное: агента не обучали на задачах с авторизацией и финансовыми операциями. То есть «зайди в личный кабинет и оплати» — это пока не к нему.

Оплату коммуналки он за тебя не сделает. Пока.

Зачем это нужно тем, кто хочет внедрить, а не поиграться

Если смотреть не с позиции «прикольная игрушка», а с позиции «хочу встроить это в рабочий процесс» — вопрос обычно не про то, умный ли агент. Вопрос — можно ли ему доверять как системе и обслуживать его потом.

Открытые данные и открытые веса дают три конкретные вещи. Можно проверить, что именно запускаешь. Можно дообучить на своих сценариях — например, под конкретную внутреннюю систему или нестандартный интерфейс. И можно не зависеть от API, где тариф может измениться завтра, а ты узнаешь об этом по счёту.

По результатам на нескольких стандартных тестах для браузерных агентов MolmoWeb сейчас в лидерах среди открытых решений — и, по словам Ai2, обгоняет некоторые более старые платные варианты.

Большинство ИИ-продуктов продают готовую магию и прячут инструкцию. MolmoWeb — попытка сделать из этого нормальный инструмент: с документацией, запасными деталями и возможностью разобрать, если что-то пошло не так. В мире, где браузерные агенты всё активнее лезут в рабочие процессы, это редкость — примерно как автомобиль с открытым капотом в эпоху «просто езди и не трогай».