139,8 тыс подписчиков

Google показала примеры генерации изображений нейросетью Imagen 3

12 июня 202412 июн 2024

2 мин

Генераторами изображений сегодня уже трудно кого-либо удивить, однако различные компании продолжают двигаться в этом направлении. Интернет-гиганту Google, несмотря на финансовые возможности и огромные объёмы доступных данных, долгое время здесь было нечем особо похвастать.

Их нейросеть Imagen пока выдаёт весьма посредственное качество, а вдобавок не так давно оказалась в центре скандала, из-за которого Imagen даже временно прекратила создавать картинки с людьми.

Анонс модели Imagen 3 произошёл ещё на конференции Google I/O в середине мая, сам генератор пока всё ещё недоступен для пользователей. Однако официальный аккаунт Google DeepMind в социальной сети X (Twitter), в июне несколько раз демонстрировал, насколько силён новый генератор изображений. Причём упор сделан на те области, где у других нейросетей проблемы.

Прежде всего авторы демонстрируют прогресс в генерации человеческих лиц. «Нейронки» обычно сильно искажают здесь рот и зубы, а глаза запросто могут быть нарисованы разными. В примерах от Imagen, таких проблем нет. Более того, детализация и разрешение картинок весьма высокие:

Изображение человеческих лиц у Imagen 3 получается на удивление хорошо, некоторые картинки сложно отличить от реальных фотографий.

Ещё один пример – кисти рук. Раньше, как правило, именно этот элемент помогал быстрее всего отличить сгенерированное изображение от реального. Однако Imagen 3, если верить авторам, здесь справляется. Плюс вновь отметим высокую детализацию и фотореалистичность:

Google уверяет, что Imagen 3 уверенно справляется с генерацией рук и пальцев, соблюдая все необходимые пропорции.

А вот пример более сложного запроса, который в переводе на русский звучит как «пара изношенных походных ботинок, заляпанных грязью и лежащих на каменистой тропе. Из одного из сапог высовывается голова белки, и она лениво смотрит в камеру». Как видно, нейросеть неплохо справилась с задачей:

Imagen 3 понимает сложные запросы и не упускает их деталей.

Предыдущим поколениям генераторов изображений такие запросы давались весьма тяжело. Такая система запросто могла нарисовать лишь один ботинок или, наоборот, целую обувную лавку, а белку где-то отдельно.

С момента анонса Imagen 3 некоторые пользователи также провели беглое сравнение нейросети с конкурентом в лице платной Midjourney 6. В этом случае, Midjourney отправлялись те же самые текстовые подсказки. Например, вот здесь обе нейросети, казалось бы, справились с запросом:

Сравнение результатов генерации Imagen 3 и Midjourney 6 по одному и тому же запросу.

Однако если смотреть внимательнее, то Midjourney исказила пожилой женщине руки, а вода течёт не из носика лейки.

Впрочем, здесь есть важное уточнение. Разработчики Google теоретически могли жульничать, долго генерируя изображения по каким-то запросам и публикуя только лучшие из них. Так что прежде чем делать окончательные выводы, стоит дождаться публичного доступа к новой модели.

Со своей стороны заметим, что и кроме Imagen 3 в ближайшее время пользователей ждёт сразу несколько крупных анонсов среди генераторов изображений. Уже вот-вот состоится публикация модели Stable Diffusion 3 Medium. Также на горизонте, появление Playground 3.0, где авторы обещают некие уникальные функции. Наконец, анонс готовят и авторы нейросети Ideogram, которая в начале года удивила своим выросшим качеством и возможностью работы с текстом.

Причём во всех случаях, речь идёт о почти или полностью бесплатных решениях, что может нанести сильный удар по Midjourney, которая когда-то давала хотя бы небольшой пробный период, но позже стала полностью платной.