Найти в Дзене

Прогресс на 2 недели просто чудовищный

Прогресс на 2 недели просто чудовищный. Tatiana Tkr реализовала липсинг. Ниже объясню - какие это дает возможности. Здесь пока использован "старый стек" текст->NotebookLM->Kling 2.1->CapCut. Генерацию делали только для героев и интерьера студии, остальное - Storyblocks, так получается быстро и недорого. Крайняя версия: Кто главный: человек или ИИ? Машина размышляет о своём будущем. https://www.youtube.com/watch?v=Pfl5vyk6s3A Все герои синтезированные, пока под аудиотрек от NotebookLM, и в прошлой версии делали без липсинга, просто дублирование. см - Игры вместо школы? Модель воспитания XXI века. https://www.youtube.com/watch?v=-8k6JhfQigU После чумового релиза ElevenLab 3.0, будем тестировать полноценную режиссуру голоса и озвучки, т.е. убираем посредника в виде NotebookLM, т.е. мы теперь можем 100% управлять текстом и режиссурой озвучки - можно тестировать как режим монолога, так и диалога - даже несколько человек в кадре + строить полностью сцену, т.е. это уже полноценное кино -

Прогресс на 2 недели просто чудовищный. Tatiana Tkr реализовала липсинг. Ниже объясню - какие это дает возможности. Здесь пока использован "старый стек" текст->NotebookLM->Kling 2.1->CapCut. Генерацию делали только для героев и интерьера студии, остальное - Storyblocks, так получается быстро и недорого. Крайняя версия:

Кто главный: человек или ИИ? Машина размышляет о своём будущем. https://www.youtube.com/watch?v=Pfl5vyk6s3A

Все герои синтезированные, пока под аудиотрек от NotebookLM, и в прошлой версии делали без липсинга, просто дублирование. см - Игры вместо школы? Модель воспитания XXI века. https://www.youtube.com/watch?v=-8k6JhfQigU

После чумового релиза ElevenLab 3.0, будем тестировать полноценную режиссуру голоса и озвучки, т.е. убираем посредника в виде NotebookLM, т.е. мы теперь можем 100% управлять текстом и режиссурой озвучки - можно тестировать как режим монолога, так и диалога - даже несколько человек в кадре + строить полностью сцену, т.е. это уже полноценное кино - любые разговорные сцены.

Для коротких форматов, где доля генерации ИИ не больше 1 минуты это более или менее еще приемлемо по деньгам, но, конечно, пока это идеально для коротких анонсов в формате 11 и 30 секунд - это под превью. Остальное покрывать стоками - для тематических видео подкастов это норм.

А вот для аудио подкастов это уже совсем интересно, так как мы получаем 100 min всего за 22$, или 1000 мин за 99$, это 12-18 полноценных 60-минутных выпусков или по сути ЕЖЕДНЕВНО 30-минутный выпуск.

Сейчас ПОКА можно 100% автоматизировать 2-ую версию EL, но, думаю в течении нескольких месяцев API раскатают и на версию 3.

Итого, при наличии написанного текста сценария для монолога/ диалога, 60 минутный аудио трек стоит примерно 6$ генерации на почти 70 языках.

При том, что если кого-то нанимать на такой же объем, это стоило бы с учетом актеров, студии, звукорежиссера и затрат времени, думаю в районе от 500 до 700$. Т.е. разница - огромная.

Для кого это супер полезно? Для авторов, которые умеют писать, у кого есть тексты, кто хочет выйти на разные языковые аудитории. Разумеется, режиссер, маркетологи, писатели, блоггеры.

Совершенно очевидно, качество, управляемость будет расти, а цена генерации падать. Разумеется, под серьезные проекты можно создавать свой ЛОР.