Системы генерации графики по словесным и/или графическим затравкам-промтам сейчас набирают популярность и привлекают все больше внимания прессы и потенциальных клиентов. Среди них на слуху DALL-E 2 от OpenAI, Imagen от Google и недавно но резко вышедший из тени стартап MidJourney (писал про него недавно).

Но тут с горы спустился Apple 🙂 В недавно выложенной на Arxiv работе они описывают созданную ими систему по имени GAUDI (понятно, в честь кого). И, в отличие от перечисленных выше продуктов, GAUDI строит по описанию не уже привычное плоское двумерное изображение, а полновесную трёхмерную сцену. Во-первых, впечатляет само по себе. Во-вторых, как-то после этого больше верится, что компания готовит нам что-то реально крутое в области AR/VR: ведь не только железка должна быть крутой, но и софт.

Около минуты

5 августа 2022