Imagen 2.0 был анонсирован на конференции Google I/O в мае 2023 года. Сейчас эта модель доступна только для клиентов Google Cloud, использующих Vertex AI. Официальная информация была представлена в разделе Techologies в подразделе DeepMind.
Как получить доступ к Imagen 2
На данный момент Imagen доступен в Google Vertex AI, доступ к которому имеют только некоторые из пользователей. Перейдите в Google Cloud Console и найдите Vertex AI. Появится интуитивно понятный интерфейс, в котором можно генерировать изображения.
Компания Google умалчивает о данных, использованных для тренировки этой новой версии, оставляя в тени вопросы о правах и возможности компенсации авторов, чьи работы могли быть использованы в процессе обучения. Этот вопрос вызывает юридические дебаты о том, могут ли компании, такие как Google, использовать общедоступные данные для тренировки своих моделей, а затем продавать их. В прошлом Google использовала публичный набор данных LAION для обучения первой версии Imagen, который содержал спорный контент.
Imagen 2, официально представленная на конференции Google I/O, разработана на базе технологий Google DeepMind. По сравнению с первым поколением, она значительно повысила качество генерации изображений и добавила новые функции, включая создание текста и логотипов.
В текущей версии Imagen 2 поддерживаются запросы на английском, китайском, хинди, японском, корейском, португальском и испанском языках. Ожидается, что к 2024 году этот список будет значительно расширен, обеспечивая более широкую многоязычную поддержку и доступность модели для разнообразной международной аудитории.
Однако уже известно, что компания Google внедрила инновационный подход в обучение своей модели Imagen 2, используя тренировочный набор данных, который включает в себя оценки качества таких элементов, как освещение, композиция, экспозиция и четкость изображений.
Этот подход позволил улучшить модель, настроив ее на аэстетические предпочтения пользователей. Благодаря этому, модель может с большей точностью воспроизводить искусственные изображения, соответствующие конкретным запросам. Особо стоит отметить функцию модели, позволяющую использовать стили и узоры из выбранных референсных изображений для создания новых визуальных объектов.
При этом, в рамках своего последнего релиза, Google раскрыла подробности о функционировании Imagen, своей передовой модели генерации изображений. Эта система, подобно другим передовым моделям, таким как GPT-3 от OpenAI, использует сложные языковые модели для анализа текстовых запросов. Обработка запроса происходит в несколько этапов: начиная с создания прототипа изображения в разрешении 64х64 пикселей, который затем дорабатывается и увеличивается до размеров 256х256 и в конечном итоге до 1024х1024 пикселей.
Томас Куриан, генеральный директор Google Cloud, объявил на пресс-конференции, что теперь возможно создавать изображения с текстом, например, для рекламы. Также она может накладывать логотипы на различные поверхности, как объяснил Виши Тирумаласетти, руководитель отдела генеративных медиапродуктов в Google.
Google утверждает, что их модель Imagen превосходит DALL-E 2 в понимании сложных запросов. В ходе тестирования, в котором участвовала группа оценщиков, сравнивались изображения, созданные с помощью Imagen, DALL-E 2 и других подобных моделей. Результаты показали, что изображения, сгенерированные моделью Google, чаще всего получали предпочтение у участников.
Тем не менее, нейросеть от OpenAI, DALL-E, уже доступна в качестве полноценной бета-версии и активно используется пользователями для повседневных задач и развлечений. В то время как проект Google все еще находится в стадии экспериментального тестирования, компания предоставляет возможность ограниченного использования своей модели в технодемонстрации. В этом демо пользователи могут только выбирать слова из заранее подготовленного списка для создания изображений.
Благодаря усовершенствованным методам обучения, Imagen 2 может более точно реагировать на сложные и длинные запросы, а также лучше понимать многоязычные запросы. Кроме того, Imagen 2 использует технологию SynthID от DeepMind для нанесения невидимых водяных знаков на созданные изображения, что может помочь в борьбе с дезинформацией.
Некоторые компании, разрабатывающие AI-генераторы изображений, предлагают авторам возможность отказаться от участия в их тренировочных наборах данных, в то время как другие, включая Adobe и Getty Images, предлагают системы вознаграждения. Однако Google и некоторые другие компании, такие как Amazon, пока не предлагают таких механизмов.
В качестве защиты от юридических претензий, связанных с использованием данных и результатов работы Imagen 2, Google предлагает политику возмещения ущерба для клиентов Vertex AI. Это является частью стратегии Google по управлению рисками, связанными с интеллектуальной собственностью в области генеративного ИИ.
Однако, не стоит забывать, что на последней конференции посвещенной Gemini 2 Google явно преукрасила возможности своего нового продукта.
Чтобы не пропустить эти и другие новинки в мире искусственного интеллекта подписывайтесь на мой канал AIBullet.