118 подписчиков

Alibaba выпустила нейросеть, которая сама делает приложения. Qwen3.7-Plus - это уже не просто «чат с картинками»

8 июня8 июн

5 мин

Если вы следите за гонкой ИИ-моделей, то заметили: все вдруг перестали соревноваться в том, «кто больше токенов в контекст засунет». Теперь другая игра. Китайские гиганты перешли к следующему этапу. И Alibaba только что показала, как это выглядит. Встречайте Qwen3.7-Plus. Модель, которая не просто отвечает на вопросы и не просто «видит» картинки. Она смотрит на экран, понимает, что там происходит, пишет код, сама его запускает, тестирует и исправляет ошибки. «Одна модель - и смотреть, и думать, и писать, и делать» — так описал её суть один из обозревателей. И это, пожалуй, самое точное определение. Что значит «мультимодальный агент» в реальной жизни Обычный ChatGPT с картинками умеет ответить на вопрос «что на этом фото?». Qwen3.7-Plus умеет ответить на вопрос «посмотри на это приложение, пойми, как оно работает, и сделай точно такое же, но с другим дизайном». Создатели называют это парадигмой «видеть → думать → кодить → действовать → проверять». Раньше для такой цепочки требовалась св

Если вы следите за гонкой ИИ-моделей, то заметили: все вдруг перестали соревноваться в том, «кто больше токенов в контекст засунет». Теперь другая игра.

Китайские гиганты перешли к следующему этапу. И Alibaba только что показала, как это выглядит.

Встречайте Qwen3.7-Plus. Модель, которая не просто отвечает на вопросы и не просто «видит» картинки. Она смотрит на экран, понимает, что там происходит, пишет код, сама его запускает, тестирует и исправляет ошибки.

«Одна модель - и смотреть, и думать, и писать, и делать» — так описал её суть один из обозревателей. И это, пожалуй, самое точное определение.

Что значит «мультимодальный агент» в реальной жизни

Обычный ChatGPT с картинками умеет ответить на вопрос «что на этом фото?». Qwen3.7-Plus умеет ответить на вопрос «посмотри на это приложение, пойми, как оно работает, и сделай точно такое же, но с другим дизайном».

Создатели называют это парадигмой «видеть → думать → кодить → действовать → проверять». Раньше для такой цепочки требовалась связка из нескольких нейросетей и живого программиста-оркестратора. Теперь - одна модель.

Цифры, которые объясняют, почему это серьёзно

Давайте без лишних эмоций, только бенчмарки.

Понимание и управление экраном (ScreenSpot Pro):

· Qwen3.7-Plus набирает 79.0 балла

· GPT-5.4 - 67.4

· Gemini 3.1 Pro - 68.1

Модель Alibaba обходит прямых конкурентов из США с заметным отрывом.

Программирование в командной строке (Terminal Bench 2.0):

· Qwen3.7-Plus - 70.3

· DeepSeek-V4-Pro Max - 67.9

· Claude Opus-4.6 Max - 65.4

Тоже лидирует, хотя отрыв здесь поменьше.

Чистое визуальное мышление (BabyVision):

· Qwen3.7-Plus - 64.7

· Прошлая версия Qwen3.6-Plus - 37.4

Рост почти в два раза за одно поколение. Это не эволюция, это скачок.

В глобальном рейтинге Vision Arena (мультимодальные модели) Alibaba теперь занимает 5-е место в мире и 1-е в Китае. Впереди только Anthropic, Meta, Google и OpenAI . И разрыв, судя по динамике, будет сокращаться.

Главное: что она реально может. Приготовьтесь удивиться.

Кейс №1. Английское приложение за 11 часов.

Разработчики запустили Hybrid-Agent на базе Qwen3.7-Plus и оставили его работать самостоятельно. Через 11 с лишним часов модель полностью разработала приложение для изучения английских слов. Без единого вмешательства человека.

Итог: более 10 000 строк кода, более 1000 вызовов агента, полный цикл - от генерации требований до автотестов и деплоя.

Кейс №2. Переписала биржевое приложение Apple.

Модели дали задание: «Посмотри на macOS Stocks, пойми, как он работает, и сделай такой же».

Что она сделала:
— сама запустила оригинальное приложение
— изучила его интерфейс и логику работы
— сгенерировала код на SwiftUI
— подключилась к реальному биржевому API за данными
— скомпилировала готовое приложение
— запустила 10 автоматических тестов

Все тесты прошла. Приложение работает.

Кейс №3. Сама покупает сервер в облаке.

Представьте, что вы нетехнический пользователь, которому нужно «купить самую дешёвую виртуалку в облаке».

Вы просто описываете задачу. Qwen3.7-Plus заходит в консоль управления, листает страницы, сравнивает цены, выбирает конфигурацию, настраивает безопасность и подтверждает заказ. Всё через обычный браузерный интерфейс, без API.

Это, пожалуй, самый пугающий и одновременно впечатляющий пример.

Кейс №4. Рисует кодом по картинке.

Даёте модели фотографию, скетч от руки или даже короткое видео. Она генерирует SVG-анимацию или полноценный веб-сайт. Один в один по визуальному стилю.

Дизайнеры, которые боятся, что их заменят, могут начинать беспокоиться. А могут начать использовать это как инструмент для быстрого прототипирования.

Цены (и это приятный сюрприз)

Модель уже доступна через API в Alibaba Cloud.

Стоимость за 1 миллион токенов:

· Входящие: 0,40 доллара

· Исходящие: 1,60 доллара

Это очень дёшево для модели такого уровня. Для сравнения, у некоторых конкурентов цены в 3-5 раз выше. То есть Qwen3.7-Plus - это не только мощно, но и доступно.

А теперь о слабых местах. Без ложки дёгтя никуда.

Модель выдающаяся, но не идеальная.

В сложнейших инженерных задачах (бенчмарк SWE-Verified) Qwen3.7-Plus набирает 77.7 балла. А Claude Opus-4.6 Max - 80.8. То есть в многолетнем опыте рефакторинга чужого кода и исправления тонких багов «Клод» пока сильнее.

В задачах на чистое логическое рассуждение высшего уровня (бенчмарк HLE) отставание ещё заметнее: 34.7 у Qwen против 40.0 у GPT-5.4.

То есть если вам нужен молниеносный агент, который видит, кликает и строит приложения с нуля, - Qwen3.7-Plus, вероятно, лучший выбор. Если вам нужно решить задачу, над которой лучшие математики мира ломают голову неделями, - пока лучше обратиться к конкурентам.

Контекст: битва титанов в Китае

Любопытная деталь. Qwen3.7-Plus вышла буквально через день после MiniMax M3 - другой флагманской китайской модели. Сравнение напрашивается само собо .

У MiniMax M3 другая специализация: 1 миллион токенов контекста и полная открытость (код обещают выложить через 10 дней). Qwen3.7-Plus, напротив, доступна только через API и делает ставку на мультимодальность и GUI-управление.

Китайские ИИ-гонки набирают обороты. И оба игрока выдают продукты, от которых западным конкурентам становится не по себе.

Что в итоге

Qwen3.7-Plus - это не «очередное обновление». Это смена парадигмы. Модель перестаёт быть просто «генератором текста» или «распознавателем картинок». Она становится автономным исполнителем, который может взять задачу от слов «сделай приложение» до готового продукта.

Конечно, до полной замены junior-разработчика ещё далеко. Но темп, с которым Alibaba улучшает свои модели, пугает. Особенно если учесть, что Qwen3.7-Plus - это не флагман, а всего лишь плюсовая версия. То есть есть ещё более мощная модель в той же линейке.

Остаётся один вопрос. Если модель умеет заходить в ваш облачный аккаунт и покупать сервера, когда мы начнём доверять ИИ такие вещи? Или это уже случилось, просто мы пока не знаем?

Вопрос к тем, кто следит за ИИ

Как думаете, когда мы увидим первую нейросеть, которая полностью заменит junior-разработчика на реальном проекте? Qwen3.7-Plus уже сейчас пишет приложения с нуля. Чего не хватает для «боевого крещения»?

И второй вопрос - этический. Модель, которая умеет самостоятельно кликать по интерфейсам, заходить в аккаунты и подтверждать покупки - это крутой инструмент или потенциальный кошмар безопасности?

Ставьте лайк, если тема агентного ИИ вам интересна. И подписывайтесь -будем дальше следить за гонкой китайских моделей и сравнивать их с западными гигантами. Без паники, но с открытыми глазами.

Жду ваши комментарии. Кто уже пробовал Qwen3.7-Plus через API? Какие впечатления? Реально ли она так хороша, как в бенчмарках, или там есть подводные камни?