29 подписчиков

Новый ИИ-алгоритм рисует картинки в 9 раз быстрее и работает даже на смартфоне

9 апреля 20259 апр 2025

2 мин

Представьте, что вы можете получить качественную ИИ-картинку не за десятки секунд, а практически мгновенно — даже с обычного ноутбука или смартфона. Это становится реальностью благодаря новой разработке учёных из Массачусетского технологического института (MIT) и компании NVIDIA. Новый генератор изображений под названием HART (сокращение от Hybrid Autoregressive Transformer) умеет создавать изображения, которые по качеству не уступают лучшим моделям вроде DALL-E или Stable Diffusion, но делает это примерно в 9 раз быстрее и с меньшими затратами энергии. Большинство современных ИИ-моделей, создающих изображения, работают либо по принципу авторегрессии, либо используют диффузионный подход. HART объединяет оба метода: сначала быстрый авторегрессионный блок рисует «черновик» картинки, а затем маленькая, «лёгкая» диффузионная модель дорабатывает мелкие детали — как художник, который сначала наносит широкие мазки, а потом прорисовывает глаза и волосы. Авторы проекта подчёркивают, что такую

Оглавление

Учёные из MIT и NVIDIA объединили два подхода и создали прорывной инструмент генерации изображений — HART
В чём секрет?
Почему это важно?

Учёные из MIT и NVIDIA объединили два подхода и создали прорывной инструмент генерации изображений — HART

Новый генератор изображений под названием HART (сокращение от Hybrid Autoregressive Transformer) умеет создавать изображения, которые по качеству не уступают лучшим моделям вроде DALL-E или Stable Diffusion, но делает это примерно в 9 раз быстрее и с меньшими затратами энергии.

В чём секрет?

Большинство современных ИИ-моделей, создающих изображения, работают либо по принципу авторегрессии, либо используют диффузионный подход.

Диффузионные модели (как у DALL-E) создают потрясающе реалистичные картинки, но делают это медленно и требуют мощного «железа».
Авторегрессионные модели, похожие на те, что лежат в основе ChatGPT, работают гораздо быстрее, но изображения у них выходят не такими детализированными и часто с ошибками.

HART объединяет оба метода: сначала быстрый авторегрессионный блок рисует «черновик» картинки, а затем маленькая, «лёгкая» диффузионная модель дорабатывает мелкие детали — как художник, который сначала наносит широкие мазки, а потом прорисовывает глаза и волосы.

Почему это важно?

HART генерирует изображения на 31% эффективнее, чем современные модели.
Он может работать локально — без облаков, прямо на смартфоне.
Визуальное качество достигается с помощью всего 8 шагов (у стандартных моделей — 30 и более).

Авторы проекта подчёркивают, что такую систему можно легко встроить в будущие универсальные ИИ-модели, которые понимают и текст, и картинки. Например, вы сможете написать: «Покажи, как собрать этот стол» — и получить пошаговые визуальные инструкции.

Применения HART:

Тренировка роботов и ИИ в симулированных условиях.
Создание реалистичных локаций для видеоигр.
Быстрая визуализация дизайнерских идей.
В перспективе — генерация видео и звука.

Что дальше?

Разработчики планируют расширить HART, чтобы он работал с видео и аудио, а также стал частью больших мультимодальных ИИ-систем, которые могут не только рисовать, но и «думать», анализируя запросы в разных форматах.

Как говорят сами учёные:

«Если раньше вы могли просто “нарисовать пейзаж”, то теперь вы делаете первый слой, а потом — аккуратно добавляете детали. Именно так работает HART — и результат получается намного лучше».

Хотите узнавать о технологических открытиях первыми? Подпишитесь на канал “Будущее рядом” .