Найти тему
76 подписчиков

ElevenLabs: выкатили API для генерации звуковых эффектов.


Чтобы продемонстрировать, что с этим можно сделать они собрали и выложили в опенсорс приложение для генерации звуков к загруженному видео.

Как оно работает:
* Берутся 4 кадра видео с интервалом в 1 секунду
* Кадры и промт посылаются GPT-4o для получения подходящего описания звука
* Описание отправляется на API ElevenLabs, чтобы сгенерировать звук
* На стороне пользователя видео и звук сшиваются

PS: в собранном ими приложении нет места под промт из второго шага. Просто грузишь видео и дальше оно само.

Ранее ElevenLabs выпустили генерацию звуковых эффектов из текста.

ElevenLabs: выкатили API для генерации звуковых эффектов.  Чтобы продемонстрировать, что с этим можно сделать они собрали и выложили в опенсорс приложение для генерации звуков к загруженному видео.
00:23
Около минуты