611 подписчиков

Google представила DiffusionGemma: новая ИИ-модель генерирует текст в 4 раза быстрее обычных нейросетей

2 дня назад2 дня назад

4 мин

Пока большинство компаний соревнуются в том, кто создаст более умную языковую модель, Google решила атаковать другую проблему — скорость. Компания представила экспериментальную модель DiffusionGemma, которая использует совершенно иной подход к генерации текста. По словам разработчиков, новинка способна создавать текст до четырёх раз быстрее традиционных больших языковых моделей. Если технология покажет себя на практике, она может изменить представление о том, как должны работать локальные ИИ-системы на персональных компьютерах. Большинство популярных нейросетей сегодня используют так называемый авторегрессионный подход. Если упростить, модель генерирует текст по одному токену за раз. Она пишет первое слово, затем второе, потом третье и так далее. Так работают GPT, Gemini, Claude, Llama и практически все современные большие языковые модели. Проблема в том, что даже мощные видеокарты во время такого процесса зачастую простаивают, ожидая завершения очередного шага генерации. Особенно заме

Оглавление

Почему современные ИИ работают медленно
Что придумали инженеры Google
До четырёх раз быстрее обычных моделей

Пока большинство компаний соревнуются в том, кто создаст более умную языковую модель, Google решила атаковать другую проблему — скорость.

Компания представила экспериментальную модель DiffusionGemma, которая использует совершенно иной подход к генерации текста. По словам разработчиков, новинка способна создавать текст до четырёх раз быстрее традиционных больших языковых моделей.

Если технология покажет себя на практике, она может изменить представление о том, как должны работать локальные ИИ-системы на персональных компьютерах.

Почему современные ИИ работают медленно

Большинство популярных нейросетей сегодня используют так называемый авторегрессионный подход.

Если упростить, модель генерирует текст по одному токену за раз. Она пишет первое слово, затем второе, потом третье и так далее.

Так работают GPT, Gemini, Claude, Llama и практически все современные большие языковые модели.

Проблема в том, что даже мощные видеокарты во время такого процесса зачастую простаивают, ожидая завершения очередного шага генерации.

Особенно заметно это становится при локальном запуске моделей на домашних компьютерах.

Что придумали инженеры Google

Вместо последовательной генерации текста DiffusionGemma использует технологию диффузионной генерации.

Подход напоминает работу современных генераторов изображений.

Когда нейросеть создаёт картинку, она не рисует её по пикселям слева направо. Вместо этого модель начинает с хаоса и постепенно улучшает результат, шаг за шагом превращая шум в готовое изображение.

Google решила применить этот принцип к тексту.

Вместо того чтобы писать предложение слово за словом, DiffusionGemma сразу создаёт большой блок текста и затем постепенно улучшает его за несколько проходов.

До четырёх раз быстрее обычных моделей

По данным Google, новая архитектура позволяет добиться впечатляющей производительности.

На ускорителе NVIDIA H100 модель способна выдавать более 1000 токенов в секунду.

На потребительской видеокарте NVIDIA GeForce RTX 5090 скорость превышает 700 токенов в секунду.

Это примерно в четыре раза быстрее по сравнению с традиционными языковыми моделями аналогичного класса.

Для разработчиков интерактивных приложений такая разница может оказаться крайне важной.

Как устроена DiffusionGemma

В основе новинки лежит семейство Gemma 4 и исследования Google в области Gemini Diffusion.

Модель построена по схеме Mixture of Experts (MoE).

Хотя её общий размер составляет 26 миллиардов параметров, во время работы активируется только около 3,8 миллиарда параметров.

Благодаря этому модель можно запускать даже на относительно доступном оборудовании.

После квантования ей достаточно примерно 18 ГБ видеопамяти, что делает её пригодной для работы на современных пользовательских видеокартах.

Главное отличие — двунаправленное мышление

Обычные языковые модели смотрят только вперёд.

Когда они пишут предложение, будущие слова для них ещё неизвестны.

DiffusionGemma работает иначе.

Она генерирует блоки по 256 токенов одновременно и может учитывать весь текст сразу.

Это позволяет каждому токену анализировать соседние элементы как слева, так и справа.

Такой подход особенно полезен для задач, где нужно понимать структуру документа целиком.

Например:

— редактирование текста внутри документа;

— дополнение программного кода;

— работа с математическими выражениями;

— генерация сложной разметки;

— задачи в области биоинформатики.

Модель умеет исправлять собственные ошибки

Ещё одна особенность DiffusionGemma заключается в механизме самокоррекции.

Поскольку модель постоянно пересматривает весь текстовый блок, она может замечать ошибки и исправлять их ещё в процессе генерации.

Это напоминает работу человека, который пишет текст, одновременно перечитывая уже написанное и внося правки.

У традиционных языковых моделей такой возможности практически нет, поскольку после генерации предыдущих слов они уже не могут к ним вернуться.

Для кого создана DiffusionGemma

В Google подчёркивают, что новинка пока имеет экспериментальный статус.

Компания не позиционирует её как замену классическим моделям Gemma 4.

Если требуется максимальное качество текста, Google по-прежнему рекомендует использовать стандартные авторегрессионные модели.

DiffusionGemma ориентирована прежде всего на исследователей и разработчиков, которым важны:

быстрое редактирование текста;

локальный запуск ИИ;

интерактивные приложения;

низкие задержки;

эксперименты с новыми типами генерации.

Судоку вместо текста

Чтобы продемонстрировать необычные возможности архитектуры, разработчики привели интересный пример.

После дообучения с помощью платформы Unsloth модель научилась решать судоку.

Для традиционных языковых моделей такие задачи оказываются сложными, поскольку каждое следующее действие зависит от информации, которая появится позже.

Благодаря двунаправленному вниманию DiffusionGemma может анализировать всю головоломку одновременно, что значительно упрощает решение подобных задач.

Начало новой гонки архитектур

Последние несколько лет индустрия искусственного интеллекта развивалась вокруг одной идеи — увеличения размеров языковых моделей.

DiffusionGemma показывает, что следующий этап конкуренции может развернуться уже не вокруг количества параметров, а вокруг принципов генерации.

Если диффузионный подход подтвердит свои преимущества на практике, то через несколько лет многие локальные ИИ-системы могут отказаться от привычного принципа генерации текста слово за словом.

И тогда современные нейросети будут не писать текст, а буквально «проявлять» его целиком — примерно так же, как сегодня создаются изображения в Midjourney или Stable Diffusion.