И делает это как минимум не хуже, чем DALL-E 2. Google анонсировала Imagen — нейросеть, преобразующую текстовый запрос в изображения. Это прямой конкурент DALL-E 2 от OpenAI — который в некоторых сценариях работает даже лучше. Для распознавания текстового запроса нейросеть использует большие языковые модели — на них же основаны алгоритмы обработки естественной речи вроде GPT-3. Система работает в три этапа. На первом рисуется небольшая картинка размером 64 х 64 пикселя, которая дорабатывается до тех пор, пока нейросеть не может её изменить для лучшего соответствия исходному запросу. Затем размер изображения увеличивают до 256 х 256 пикселей, и Imagen дорабатывает детали. На третьем этапе то же самое повторяется уже с холстом финального размера — 1024 х 1024 пикселя. В тексте исследования отмечается, что Imagen справляется с понимаем сложных запросов лучше, чем DALL-E 2. К примеру, по запросу «Панда делает латте-арт» DALL-E 2 выдала исключительно латте-арт с пандами, в то время как нейр
Google представила нейросеть Imagen. Она генерирует картинки по описанию
24 мая 202224 мая 2022
145
1 мин