7 подписчиков
Google создала нейросеть Imagen, которая генерирует изображения по текстовому запросу
Нейросеть Imagen умеет распознавать текст и генерировать изображения маленького размера, а потом с помощью метода диффузии доводить их до большего размера.
ℹ️Метод диффузии — это процесс, при котором на изображение добавляется шум, пока на картинке не останется только случайный шум. Затем из этих изображений создается дата-сет, по которому нейросеть учится обращать процесс вспять: генерировать из шума качественное изображение.
Нейросеть улучшает изображения до тех пор, пока не решит, что не может сделать его ещё более приближённым к заданному описанию. Однако это не похоже на обычное масштабирование, потому что Imagen дополняет картинку новыми деталями.
Как нейросеть работает?
Imagen работает как художник, который начинает со схематичного наброска, постепенно дополняющегося деталями:
🔸сначала нейросеть получает описание — например, «собака на велосипеде»;
🔸затем она создаёт первую версию изображения, где ширина глаза пса будет 3 пикселя;
🔸после этого запускается диффузия, в процессе которой нейросеть расширяет ширину глаза на первом шагу до 12 пикселей, а на втором — до 48.
Хотите побольше узнать про работу искусственного интеллекта? Смотрите наш подкаст с Аркадием Сандлером, экспертом по внедренюю ИИ.
1 минута
31 мая 2022