Зловещая корпорация OpenAl предъявила миру очередное технологическое чудо: генерацию правдоподобного видео по запросу. Система называется Сора, «небо» по-японски. Загружаешь сценарий и получаешь ролик кинематографического качества, вот как будто кто-то вышел с камерой на улицу и нажал кнопку «запись». Если ставить на паузу и разглядывать детали с лупой на большом мониторе, редкие артефакты заметить можно, однако обычный зритель видеозапись от реальной не отличит. Вот презентация от OpenAl — она на английском, но почти сразу начинаются примеры сгенерированного видео (ссылка):
Также короткие видео можно посмотреть вот здесь (ссылка). Это невероятный скачок вперёд по сравнению с тем, что мы видели ещё пару недель назад. Примерно как от паровоза до автомобиля, если брать аналогии из прошлых эпох.
Формально первый автомобиль появился ещё в год рождения Наполеона, в 1769, когда француз Никола-Жозеф Кюньо прикрутил паровой двигатель на телегу, вынудив её двигаться со скоростью вальяжного пешехода (ссылка). Тогда самоходные телеги оказались невостребованными из-за своего технического несовершенства — вначале как следует развились паровозы, и только потом транспорт съехал с рельс на асфальт. Настоящие автомобили, похожие на современные, разработали примерно через 100 лет после опытов француза-первопроходца.
В генерации видео аналогичный прогресс прошёл не за век, а всего лишь за несколько лет. Ещё недавно компьютер не умел делать ничего внятного, даже картинок. В 2022 году компьютер научился генерировать удовлетворительные статичные изображения, в 2023 — генерировать рисунки и фотографии хорошего (но ещё не идеального) качества. С видео не складывалось: в 2023 году вершиной достижений были едва шевелящиеся картинки. Переходите по ссылке осторожно — как вы сможете догадаться, в мотивационном перечне энтузиастов новой технологии похоть занимала не последнее место (видео).
В 2023, повторюсь, нормально генерировались ещё не движущиеся, но уже слегка шевелящиеся картинки. При попытке создать что-то более динамичное получался видеоряд для фильмов про наркоманов, с плывущими образами и мерцающим фоном. Вершина предыдущей ступени технологий выглядела примерно так (ссылка):
Как видите, паркет дрожит, одежда и черты лица меняются от кадра к кадру. Наблюдая вполглаза за этим эпилептическим буйством, я предполагал, что доводить технологию до ума будут долго — может быть, ещё 15-20 лет. Однако OpenAl сумел удивить меня второй раз — не до холодка в спине, как в случае с ChatGPT, но всё же очень серьёзно. На презентации Соры мы видим настоящее кино — малоценное с художественной точки зрения, но уже до степени смешения похожее на кадры из реальной жизни.