Добавить в корзинуПозвонить
Найти в Дзене

Mercury 2: Диффузионный ИИ врывается в мир агентских рассуждений со скоростью 1000 токенов/сек

Stefano Ermon (Inception Labs) представил Mercury 2 — первый «рассуждающий» dLLM (Diffusion Large Language Model). В основе,- диффузия вместо авторегрессии. Результат — пятикратный рост производительности и скорость свыше 1000 токенов в секунду. 🏗 Диффузия вместо печатной машинки Главное отличие: обычные LLM работают как печатная машинка (авторегрессионно, токен за токеном). Mercury 2 работает как редактор — параллельно и итеративно уточняет весь контекст сразу. Это позволяет модели ловить собственные ошибки прямо в процессе генерации и радикально снижать стоимость инференса. 📺 Аналогия: Эволюция форматов Это как переход от записи звука на виниловую дорожку (где одна царапина губит всё) к цифровому мастерингу. В авторегрессии ошибка в первом токене ведет к галлюцинации всей цепочки. Mercury 2 «перерисовывает» ответ, пока он не станет верным, что делает её идеальной для сложных многошаговых агентов. ⚡️ Агентский дедлайн Скорость в 1000 токенов/сек — это не просто цифра. Это воз

Mercury 2: Диффузионный ИИ врывается в мир агентских рассуждений со скоростью 1000 токенов/сек

Stefano Ermon (Inception Labs) представил Mercury 2 — первый «рассуждающий» dLLM (Diffusion Large Language Model).

В основе,- диффузия вместо авторегрессии.

Результат — пятикратный рост производительности и скорость свыше 1000 токенов в секунду.

🏗 Диффузия вместо печатной машинки

Главное отличие: обычные LLM работают как печатная машинка (авторегрессионно, токен за токеном).

Mercury 2 работает как редактор — параллельно и итеративно уточняет весь контекст сразу.

Это позволяет модели ловить собственные ошибки прямо в процессе генерации и радикально снижать стоимость инференса.

📺 Аналогия: Эволюция форматов

Это как переход от записи звука на виниловую дорожку (где одна царапина губит всё) к цифровому мастерингу.

В авторегрессии ошибка в первом токене ведет к галлюцинации всей цепочки.

Mercury 2 «перерисовывает» ответ, пока он не станет верным, что делает её идеальной для сложных многошаговых агентов.

⚡️ Агентский дедлайн

Скорость в 1000 токенов/сек — это не просто цифра.

Это возможность для агентов думать в реальном времени, не заставляя пользователя ждать.

Интерактивный поиск и голосовые ассистенты теперь могут уместиться в жесткие тайминги, которые раньше были за гранью возможного для Reasoning-моделей.

🧠 Зачем это бизнесу:

Снижение задержек (Latency) и стоимости инференса. Итеративное уточнение — это путь к более надежным системам.

Если агент может исправлять себя на лету, количество «выброшенных» токенов и неудачных попыток сокращается.

Сайт проекта:

https://www.inceptionlabs.ai/models

Попробовать:

https://chat.inceptionlabs.ai/

Осталось впаять диффузионки в чип и получить 1млн токенов в секунду.

Уже не звучит как фантастика.

Думаю увидим через 3 года.

#Mercury2 #Diffusion #Inception

------

@tsingular