Найти в Дзене

ElevenLabs запустит искусственный интеллект для создания звуковых эффектов

Овладев искусством машинного обучения (ML), основанным на клонировании и синтезе голоса, ElevenLabs планирует расширить свое портфолио новой моделью преобразования текста в звук. Искусственный интеллект позволит создателям создавать звуковые эффекты, просто описывая свое воображение словами. Ожидается, что в эпоху цифровых технологий, основанных на искусственном интеллекте, он по-новому обогатит контент. Модель недоступна для широкой публики, но ElevenLabs продемонстрировала ее возможности, выпустив минутный тизер с видеороликами, созданными новой Sora от OpenAI и дополненными собственными звуками искусственного интеллекта. Компания также создала страницу регистрации и призывает потенциальных пользователей присоединиться к списку ожидания раннего доступа к модели.
Что, если бы вы могли описать звук и сгенерировать его с помощью искусственного интеллекта?
Основанная в 2022 году, ElevenLabs занимается исследованиями искусственного интеллекта, чтобы сделать аудио- и видеоконтент – от ф

Овладев искусством машинного обучения (ML), основанным на клонировании и синтезе голоса, ElevenLabs планирует расширить свое портфолио новой моделью преобразования текста в звук.

Text to Speech & AI Voice Generator | ElevenLabs

Искусственный интеллект позволит создателям создавать звуковые эффекты, просто описывая свое воображение словами. Ожидается, что в эпоху цифровых технологий, основанных на искусственном интеллекте, он по-новому обогатит контент.

Модель недоступна для широкой публики, но ElevenLabs продемонстрировала ее возможности, выпустив минутный тизер с видеороликами, созданными новой Sora от OpenAI и дополненными собственными звуками искусственного интеллекта. Компания также создала страницу регистрации и призывает потенциальных пользователей присоединиться к списку ожидания раннего доступа к модели.

Что, если бы вы могли описать звук и сгенерировать его с помощью искусственного интеллекта?

Основанная в 2022 году, ElevenLabs занимается исследованиями искусственного интеллекта, чтобы сделать аудио- и видеоконтент – от фильмов до подкастов – доступным на разных языках и в разных географических регионах. Компания представила ряд предложений, способствующих этому, в том числе модели преобразования текста в речь и преобразования речи в речь, которые могут воспроизводить речь искусственного интеллекта из заданного фрагмента контента (текста / аудио / видео) на 29 различных языках, передавая естественный голос и эмоции (голос оригинального диктора при преобразовании речи в речь).

29 февраля мы будем в Нью-Йорке в партнерстве с Microsoft, чтобы обсудить, как сбалансировать риски и выгоды приложений с искусственным интеллектом.

Хотя оба этих инструмента продолжают широко использоваться предприятиями и частными лицами, создающими контент, также наблюдается рост полностью созданного искусственным интеллектом контента благодаря таким инструментам, как Runway, Pika и, совсем недавно, OpenAI (совместно с Sora). Эти продукты генерируют реалистичные видеоролики с искусственным интеллектом на основе простых текстовых подсказок, но чего им не хватает, так это звука по умолчанию. Здесь появится новая модель ElevenLabs, позволяющая пользователям создавать звуковые эффекты для своего контента, описывая то, что они хотят.

При использовании это предложение может легко позволить создателям искусственного интеллекта улучшить свою работу с помощью фоновых звуков, которые естественно должны сопровождать его. Звуковой эффект может быть любым, от щебета птиц до движущихся транспортных средств и звуковых сигналов. Это могут быть даже люди, разговаривающие, принимающие пищу или идущие по оживленной улице.

“В ElevenLabs мы публиковали только наши модели преобразования текста в речь. Однако у нас в разработке находится гораздо больше. И когда OpenAI анонсировала свою модель Sora, которая генерирует невероятные видеоролики, но без звука, мы решили показать беглый взгляд на нашу новую линейку продуктов ”, - написал Люк Харрис, руководитель отдела роста ElevenLabs, во время публикации X post, в котором была представлена куча видеороликов, сгенерированных Sora, дополненных звуковыми эффектами искусственного интеллекта от модели компании.

Помимо контента, созданного с помощью искусственного интеллекта, звуки, создаваемые новой моделью, могут быть применены даже к обычной речи, создаваемой из текста или любого другого видео - клипа Instagram, рекламного ролика или трейлера видеоигры, – для которого требуется фоновый звук. Еще неизвестно, как он будет использоваться и какое качество он обеспечит.

Хотя ElevenLabs не сообщила, когда планирует публично запустить модель, компания открыла регистрацию в раннем доступе. Заинтересованные пользователи могут перейти на эту страницу и зарегистрироваться, указав свое имя и адрес электронной почты, описав, для чего им нужны звуковые эффекты. ElevenLabs также просит начинающих добровольцев написать пример подсказки для звукового эффекта искусственного интеллекта, что потенциально может оптимизировать реакцию модели.

После завершения регистрации пользователь включается в список ожидания и получит доступ, когда модель станет доступна. Однако сроки на данном этапе остаются неопределенными.

Новая технология преобразования текста в звук может дать ElevenLabs преимущество первопроходца, но важно отметить, что несколько других компаний, активно работающих в сфере искусственного интеллекта, также имеют потенциал для выхода в этот сегмент.