Добавить в корзинуПозвонить
Найти в Дзене

Все в сфере искусственного интеллекта говорят о Manus: в статье описаны результаты его тестирования

У нового general AI agent из Китая были некоторые сбои в работе системы и перегрузка сервера, но он очень интуитивно понятен и обещает будущее помощникам в области искусственного интеллекта. С тех пор как был запущен универсальный ИИ-агент Manus, он распространился в Интернете со скоростью лесного пожара. И не только в Китае, где он был разработан стартапом Butterfly Effect из Ухани. О нем заговорили во всем мире, и влиятельные люди в сфере технологий, в том числе соучредитель Twitter Джек Дорси и руководитель отдела продуктов Hugging Face Виктор Мустар, высоко оценили его эффективность. Некоторые даже окрестили его “вторым DeepSeek”, сравнивая с более ранней моделью искусственного интеллекта, которая удивила индустрию своими неожиданными возможностями, а также своим происхождением. Manus утверждает, что является первым в мире универсальным ИИ-агентом, использующим множество моделей ИИ (таких как Claude 3.5 Sonnet от Anthropic и усовершенствованные версии Qwen с открытым исходным кодом
Оглавление
С тех пор как был запущен универсальный ИИ-агент Manus, он распространился в Интернете со скоростью лесного пожара
С тех пор как был запущен универсальный ИИ-агент Manus, он распространился в Интернете со скоростью лесного пожара

У нового general AI agent из Китая были некоторые сбои в работе системы и перегрузка сервера, но он очень интуитивно понятен и обещает будущее помощникам в области искусственного интеллекта.

С тех пор как был запущен универсальный ИИ-агент Manus, он распространился в Интернете со скоростью лесного пожара. И не только в Китае, где он был разработан стартапом Butterfly Effect из Ухани. О нем заговорили во всем мире, и влиятельные люди в сфере технологий, в том числе соучредитель Twitter Джек Дорси и руководитель отдела продуктов Hugging Face Виктор Мустар, высоко оценили его эффективность. Некоторые даже окрестили его “вторым DeepSeek”, сравнивая с более ранней моделью искусственного интеллекта, которая удивила индустрию своими неожиданными возможностями, а также своим происхождением.

Manus утверждает, что является первым в мире универсальным ИИ-агентом, использующим множество моделей ИИ (таких как Claude 3.5 Sonnet от Anthropic и усовершенствованные версии Qwen с открытым исходным кодом от Alibaba) и различные независимо работающие агенты для автономного решения широкого спектра задач. Это отличает его от чат-ботов с искусственным интеллектом, включая DeepSeek, которые основаны на одном большом семействе языковых моделей и в первую очередь предназначены для диалогового взаимодействия.

Несмотря на всю шумиху, очень немногие люди смогли им воспользоваться. На данный момент мало пользователей из списка ожидания получили пригласительный код. Неясно, сколько людей в этом списке, но, чтобы понять, насколько велик интерес, отметим, что на Discord-канал Мануса подписано более 200 000 человек.

MIT Technology Review удалось получить доступ к Manus, и когда был проведен его тест-драйв, то обнаружили, что его использование похоже на сотрудничество с высокоинтеллектуальным и эффективным стажером: хотя иногда он не понимает, что от него требуется, делает неверные предположения или сокращает время, чтобы ускорить процесс решения задачи, он четко объясняет свою логику, замечательно адаптируется и может существенно улучшиться при наличии подробных инструкций или обратной связи. В конечном счете, это многообещающе, но не идеально.

Как и предыдущий продукт материнской компании, ассистент с искусственным интеллектом Monica, который был выпущен в 2023 году, Manus предназначен для глобальной аудитории. В качестве языка по умолчанию выбран английский, а его дизайн отличается чистотой и минимализмом.

Чтобы войти, пользователь должен ввести действующий пригласительный код. Затем система перенаправляет пользователей на целевую страницу, которая очень похожа на страницы ChatGPT или DeepSeek, с предыдущими сеансами, отображаемыми в левой колонке, и полем для ввода чата в центре. На целевой странице также представлены примеры заданий, подготовленных компанией — от разработки бизнес-стратегии до интерактивного обучения и индивидуальных сеансов аудиомедитации.

Подобно другим инструментам искусственного интеллекта, основанным на рассуждениях, таким как ChatGPT DeepResearch, Manus способен разбивать задачи на этапы и автономно перемещаться по Сети, чтобы получать информацию, необходимую для их выполнения. Что отличает его от других, так это окно “Компьютер Мануса”, которое позволяет пользователям не только наблюдать за тем, что делает агент, но и вмешиваться в любой момент.

Вот как это было сделано в Manus

Задание 1: составить список журналистов по заданным параметрам

В первом списке репортеров, который дал Манус, было всего пять имен, а под ними пять “почетных упоминаний”. Заметили, что в нем были указаны выдающиеся работы некоторых журналистов, но не других. Мануса спросили, почему.

Причина, по которой это было предложено, была до смешного проста: мне стало лень.

“Отчасти это было связано с нехваткой времени, поскольку я пытался ускорить процесс исследования”, - сказал агент.

Когда стали настаивать на последовательности и скрупулезности, Манус в ответ составил полный список из 30 журналистов, отметив их текущие публикации и перечислив выдающиеся работы.

Тестировщик был впечатлен тем, что смог внести предложения по изменениям на высшем уровне, как это сделал бы любой другой практикант или ассистент в реальной жизни, и что это было воспринято соответствующим образом. И хотя изначально программа не заметила изменений в статусе работодателя некоторых журналистов, когда тестировщик попросил ее пересмотреть некоторые результаты, она быстро исправила их.

Еще одна приятная особенность: результаты можно было загрузить в виде файла Word или Excel, что упрощало редактирование или предоставление общего доступа к ним другим.

Однако Manus столкнулся с проблемой при доступе к новостным статьям журналистов через платные экраны; он часто сталкивался с блокировками с помощью captcha.

Поскольку тестировщик мог следовать шаг за шагом, он мог легко завершить их, хотя многие медиа-сайты по-прежнему блокировали этот инструмент, ссылаясь на подозрительную активность. Здесь виден потенциал для серьезных улучшений — и было бы полезно, если бы будущая версия Manus могла заранее запрашивать помощь, когда она сталкивается с такого рода ограничениями.

Задача 2: поиск квартиры по критериям

Для поиска квартиры тестировщик задал Манусу сложный набор критериев, включающий бюджет и несколько параметров:

  • просторная кухня,
  • открытое пространство,
  • доступ к центру Манхэттена и крупный железнодорожный вокзал в пределах семи минут ходьбы.

Изначально компания Manus интерпретировала расплывчатые требования, такие как “какое-то открытое пространство”, слишком буквально, полностью исключая объекты недвижимости без собственной террасы или балкона. Однако, после получения дополнительных указаний и разъяснений, компания смогла составить более широкий и полезный список, в котором рекомендации были представлены поэтапно и четко обозначены.

Окончательный результат был получен прямо из Wirecutter и содержал подзаголовки типа

  • “лучшее в целом”,
  • “лучшее соотношение цены и качества” и
  • “роскошный вариант".

Эта задача, включая обратную связь, заняла менее получаса - намного меньше времени, чем составление списка журналистов, на что ушло чуть больше часа, вероятно, потому, что объявления о недвижимости более доступны и хорошо структурированы в Интернете.

Задание 3: 50 кандидатов в список молодых инноваторов года

Это было самое масштабное по масштабу: тестировщик попросил Мануса выдвинуть 50 кандидатов в список "Инноваторы в возрасте до 35 лет" в этом году.

Составление этого списка - огромная работа, ведь обычно получаются сотни номинаций каждый год. Поэтому было любопытно посмотреть, насколько хорошо справится Манус.

Он разбил задачу на этапы, включая просмотр прошлых списков, чтобы понять критерии отбора, разработку стратегии поиска для выявления кандидатов, подбор имен и обеспечение разнообразного выбора кандидатов со всего мира.

Разработка стратегии поиска была самой трудоемкой частью работы Manus

Хотя компания не описывала свой подход в явном виде, в окне компьютера Manus было видно, что агент быстро просматривает веб-сайты престижных исследовательских университетов, объявления о технических наградах и новостные статьи. Однако компания вновь столкнулась с препятствиями при попытке получить доступ к научным статьям и платному медиаконтенту.

После трех часов поиска в Интернете, в течение которых Манус (что вполне понятно) несколько раз спрашивал, возможно ли сузить область поиска, удалось найти только трех кандидатов с полными биографическими данными. Когда тестировщик нажал на нее еще раз, чтобы получить полный список из 50 имен, она в итоге выдала одно, но некоторые академические учреждения и области были сильно перепредставлены, что свидетельствует о незавершенности исследовательского процесса. После того, как было указано на проблему и и Manus попросили найти пять кандидатов из Китая, ему удалось составить солидный список из пяти фамилий, хотя результаты оказались не в пользу китайских СМИ. В конечном счете, пришлось сдаться после того, как система предупредила, что производительность Manus может снизиться, если будет продолжен ввод слишком большого объема текста.

Оценка по итогам тестирования Manus

  • В целом, Manus является интуитивно понятным инструментом, подходящим как для пользователей с опытом программирования, так и без него.
  • В двух из трех задач он дал лучшие результаты, чем ChatGPT DeepResearch, хотя на их выполнение ушло значительно больше времени.
  • Manus, по-видимому, лучше всего подходит для аналитических задач, которые требуют обширных исследований в открытом Интернете, но имеют ограниченный охват. Другими словами, лучше всего придерживаться тех задач, которые квалифицированный стажер может выполнять в течение рабочего дня.​

Тем не менее, не все так гладко

Manus может страдать от частых сбоев и нестабильности системы, и у него могут возникнуть проблемы с обработкой больших фрагментов текста.

Сообщение “Из-за текущей высокой загрузки сервиса задачи не могут быть созданы. Пожалуйста, повторите попытку через несколько минут”, - несколько раз появлялось на экране, когда тестировщик пытался запустить новые запросы, и иногда Манус зависал на определенной странице на длительный период времени.

По словам главного научного сотрудника Manus Пика Джи, у него более высокая частота отказов, чем у ChatGPT DeepResearch — проблема, которую команда пытается решить.

Тем не менее, китайское СМИ 36Kr сообщает, что стоимость каждой задачи Manus составляет около 2 долларов, что составляет лишь одну десятую от стоимости DeepResearch.

Если команда Manus укрепит свою серверную инфраструктуру, можно предположить, что этот инструмент станет предпочтительным выбором для отдельных пользователей, особенно для "белых воротничков", независимых разработчиков и небольших команд.

Наконец, действительно ценно, что рабочий процесс Manus относительно прозрачен и основан на сотрудничестве. Он активно задает вопросы по ходу работы и сохраняет ключевые инструкции в виде “знаний” в своей памяти для использования в будущем, что позволяет легко настраивать работу агента. Также очень приятно, что каждый сеанс можно воспроизвести и поделиться им.

Стоит использовать Manus для решения самых разных задач, как в личной, так и в профессиональной жизни. Хотя нет уверенности, что сравнение с DeepSeek вполне корректно, это служит еще одним доказательством того, что китайские компании, занимающиеся ИИ, не просто следуют по стопам своих западных коллег. Вместо того чтобы просто внедрять инновации в базовые модели, они по-своему активно формируют систему внедрения автономных агентов искусственного интеллекта.

#технологии #новоститехнологий #технологиибудущего #ии #ai #manus #китай

Интересные короткие новости технологий в телеграмм канале: https://t.me/wifi_for_free

Подписывайтесь на канал, чтобы не пропускать новые статьи!

Ставьте лайки, делайте репосты, если статья вам понравилась!