Найти в Дзене
2 подписчика

Китайская Alibaba показала Wan Streamer (https://youtu.be/RkNtPeylf_U). Теперь ИИ видит и слышит вас, и отвечает в режиме реального времени.


Особенность его не в новизне идеи (в США такое показывали и дают пользоваться), тут технология. По опубликованным материалам Wan-Streamer позиционируется как end-to-end модель, где язык, аудио и видео идут в одном непрерывном потоке внутри одного transformer’а, без отдельной связки ASR/LLM/TTS.

Ещё пишут про full duplex: модель может одновременно слушать и отвечать, а не просто ждать конца реплики.

P.S. Необычное чувство при воспоминаниях о чтении научно-фантастических книг, во времена, когда чудом был цветной огромный телевизор с кинескопом и дистанционным пультом управления. Привет, чаяния прошлого.

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Наши площадки:
Закрытый чат: https://t.me/prptut_bot
Поднять карму в Хабр, пониженную противниками русских программистов, семьи и Дня Победы, можно тут: https://habr.com/ru/users/prptut/
1 минута