Найти в Дзене
Цифровая Переплавка

🚀 Mercury — революция в мире языковых моделей на основе диффузии

Сегодня, когда нейросети уже практически стали частью нашей повседневной жизни, выход каждой новой модели обычно сопровождается довольно стандартным набором обещаний: быстрее, умнее, дешевле. Однако недавняя новость о появлении модели Mercury от компании Inception Labs действительно способна встряхнуть индустрию — речь идет не просто об очередной большой языковой модели, а о совершенно новом подходе на основе диффузионных алгоритмов. Традиционные крупные языковые модели (LLM), такие как GPT-4 или Claude 3, работают по принципу последовательной генерации токенов (autoregressive). Иными словами, модель предсказывает следующий символ или слово, опираясь только на предыдущие токены, один за другим. Этот процесс невероятно мощный, но при этом и весьма ресурсоемкий. Модель Mercury же принципиально иная — она использует подход «от грубого к точному» (coarse-to-fine), при котором множество токенов генерируются и корректируются параллельно, постепенно приближаясь к идеальному результату. Фактич
Оглавление
Яркая и динамичная иллюстрация, отражающая «рождение» новой диффузионной LLM Mercury: жидкий металл превращается в сияющие фрагменты кода, подчёркивая скорость и технологический прорыв.
Яркая и динамичная иллюстрация, отражающая «рождение» новой диффузионной LLM Mercury: жидкий металл превращается в сияющие фрагменты кода, подчёркивая скорость и технологический прорыв.

Сегодня, когда нейросети уже практически стали частью нашей повседневной жизни, выход каждой новой модели обычно сопровождается довольно стандартным набором обещаний: быстрее, умнее, дешевле. Однако недавняя новость о появлении модели Mercury от компании Inception Labs действительно способна встряхнуть индустрию — речь идет не просто об очередной большой языковой модели, а о совершенно новом подходе на основе диффузионных алгоритмов.

🌪️ Почему диффузия — это революция?

Традиционные крупные языковые модели (LLM), такие как GPT-4 или Claude 3, работают по принципу последовательной генерации токенов (autoregressive). Иными словами, модель предсказывает следующий символ или слово, опираясь только на предыдущие токены, один за другим. Этот процесс невероятно мощный, но при этом и весьма ресурсоемкий.

Модель Mercury же принципиально иная — она использует подход «от грубого к точному» (coarse-to-fine), при котором множество токенов генерируются и корректируются параллельно, постепенно приближаясь к идеальному результату. Фактически это процесс, похожий на диффузионные модели в области изображений (например, Midjourney или Sora), которые начинают с «шума» и постепенно проявляют из него четкие изображения.

Благодаря такому подходу Mercury достигает впечатляющих скоростей и точности генерации текста. В частности, заявляется, что новая модель генерирует до 1000 токенов в секунду на обычных GPU Nvidia H100, что ранее было доступно только с использованием специализированных аппаратных решений.

🛠️ Mercury Coder — идеальный помощник для разработчиков

Первая версия Mercury, представленная широкой публике — это Mercury Coder, оптимизированная для генерации программного кода. По результатам бенчмарков:

  • 🏆 HumanEval: 90% (Small версия)
  • 📈 MBPP: 76,6%
  • 💡 EvalPlus: 80,4%

Эти цифры ставят Mercury на уровень лучших специализированных моделей для кода, таких как Gemini 2.0 Flash-Lite или Claude 3.5 Haiku. Однако ключевое преимущество Mercury — это скорость работы, которая превосходит существующие аналоги в 5-10 раз.

Таблица показывает, как Mercury Coder Mini/Small и ряд конкурентов справляются с HumanEval (классические Python-задачи), MBPP (мини-программы), EvalPlus (расширенный HumanEval), MultiPL-E (полиязычные задачи), LiveCodeBench (интерактивное «живое» кодирование), BigCodeBench (крупные open-source-проекты) и Fill-in-the-Middle (дозаполнение фрагмента кода), выражая успех в процентах решённых тестов.
Таблица показывает, как Mercury Coder Mini/Small и ряд конкурентов справляются с HumanEval (классические Python-задачи), MBPP (мини-программы), EvalPlus (расширенный HumanEval), MultiPL-E (полиязычные задачи), LiveCodeBench (интерактивное «живое» кодирование), BigCodeBench (крупные open-source-проекты) и Fill-in-the-Middle (дозаполнение фрагмента кода), выражая успех в процентах решённых тестов.

⚙️ Технические детали реализации

Важной составляющей успеха Mercury является диффузионная модель, основанная на нейронных сетях Transformer. Вот как выглядит процесс генерации кода в Mercury:

  • 🎲 Шаг 1: Создается грубая версия ответа (например, кусок кода с приблизительной структурой).
  • 🔄 Шаг 2: Параллельно уточняются и корректируются несколько токенов сразу.
  • 🔍 Шаг 3: Несколько итераций позволяют постепенно добиваться точности и исправлять ошибки (устранять «галлюцинации» модели).

Эта особенность делает Mercury незаменимым для задач, где важны одновременно и точность, и скорость — например, генерация кода на лету в IDE или поддержка агентных сценариев, требующих быстрого принятия решений.

💡 Что это значит для бизнеса и разработчиков?

Mercury уже находит применение у первых клиентов, среди которых лидеры рынка в области автоматизации корпоративных задач и клиентской поддержки. Основные преимущества:

  • 🚄 Высокая скорость и низкая задержка: модели могут использоваться там, где раньше ограничивались небольшими, менее интеллектуальными моделями.
  • 📉 Снижение стоимости: за счет скорости и возможности запуска на стандартном железе.
  • 🌐 Полная совместимость: Mercury легко интегрируется в существующие инфраструктуры и поддерживает дообучение (fine-tuning и RLHF).

Также компания предлагает удобную модель распространения через API и возможность установки непосредственно на серверах клиентов.

🔮 Перспективы развития технологии

Авторы Mercury планируют выпустить линейку моделей для разных сфер применения. Среди наиболее интересных направлений дальнейшего развития:

  • 🤖 Улучшенные агенты: за счет высокой скорости генерации и точности.
  • 🧠 Продвинутое рассуждение и корректировка ошибок: возможность оперативного исправления неточностей.
  • 🎛️ Управляемая генерация текста: гибкость в редактировании и генерации в произвольном порядке токенов.
  • 📱 Edge-решения: возможность работы на мобильных устройствах и ноутбуках благодаря меньшим аппаратным требованиям.

🎯 Авторское мнение: будущее за диффузией?

Появление Mercury — это яркий пример того, как переход на новый подход может радикально изменить ландшафт технологий. По моему мнению, именно диффузионные подходы в ближайшие несколько лет могут составить конкуренцию и даже потеснить привычные LLM. Тем не менее, ключевым фактором станет, насколько быстро сообщество и крупные компании смогут адаптироваться к новому подходу и перестроить свои инструменты и процессы под модели подобного типа.

Особенно интересно, насколько быстро открытые сообщества смогут воспроизвести и усовершенствовать технологии, подобные Mercury, так как это сделает их доступными гораздо шире и подтолкнет индустрию к еще большему прогрессу.

🔗 Источник новости и полезные ссылки:

🌟 Mercury — это уже не просто еще одна нейросеть, это взгляд в будущее, который может задать совершенно новые стандарты в ИИ-индустрии.