40 подписчиков

Кажется «Кибердайн Системс» существует и готовится захватить мир 😀

23 декабря 202423 дек 2024

1 мин

В конце 2024 года мы с особым интересом следили за развитием новых моделей и инструментов, способных создавать видео по текстовым описаниям. В частности, бурно обсуждались возможности Sora от OpenAI (https://habr.com/ru/articles/865210/). А в «пятницу 13-го» (😱 декабря) команда исследователей и учёных из Лаборатории Sber AI Research, в сотрудничестве с учёными из Лаборатории FusionBrain Института AIRI, представила Kandinsky Video 4.0 (https://habr.com/ru/companies/sberbank/articles/866156/). Эта модель теперь способна генерировать видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) на основе текстового описания или произвольных стартовых кадров. Ещё одним впечатляющим анонсом стала модель Veo 2 от Google DeepMind, представленная 16 декабря (https://blog.google/technology/google-labs/video-image-generation-update-december-2024/). Инструменты от Google позволяют создавать видео в формате 4K и длительностью до 2 минут. Некоторые эксперты отмечают, что с Veo 2 Google яв

А в «пятницу 13-го» (😱 декабря) команда исследователей и учёных из Лаборатории Sber AI Research, в сотрудничестве с учёными из Лаборатории FusionBrain Института AIRI, представила Kandinsky Video 4.0 (https://habr.com/ru/companies/sberbank/articles/866156/). Эта модель теперь способна генерировать видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) на основе текстового описания или произвольных стартовых кадров.

Ещё одним впечатляющим анонсом стала модель Veo 2 от Google DeepMind, представленная 16 декабря (https://blog.google/technology/google-labs/video-image-generation-update-december-2024/). Инструменты от Google позволяют создавать видео в формате 4K и длительностью до 2 минут. Некоторые эксперты отмечают, что с Veo 2 Google явно опережает Sora от OpenAI в своём развитии (https://habr.com/ru/articles/867406/).

Однако я хочу обратить ваше внимание на опенсорс проект Genesis (https://habr.com/ru/news/868130/), который имеет все шансы стать более значимым, чем все текущие "соры", выпущенные в последние полгода. Это система, позволяющая симулировать реальные физические процессы и визуализировать их. По сути, она использует физическую модель, где из текста строится не видео, как мы привыкли, а 3D-модель с учётом физики процессов и материалов.

Чтобы понять, о чём идёт речь, посмотрите на картинки по адресу https://genesis-embodied-ai.github.io!