Нанабанана работает с визуальными аннотациями
Берете изображение, объекты и текстовые подсказки прямо на картинке, указывая куда именно эти объекты разместить.
Получается своеобразный квази-контролнет.
А затем можно использовать это для генерации видео.