Найти тему
10,2 тыс подписчиков

🔊 AudioPaLM - нейросеть Google, которая умеет разговаривать, слушать и переводить.


AudioPaLM новая языковая модель, от Google, объединяющая две предыдущие модели: PaLM-2 и AudioLM. Эта мультимодальная архитектура позволяет модели распознавать речь, сохранять особенности интонации и акцента, осуществлять перевод на другие языки на основе коротких голосовых подсказок и делать транскрипцию.

При переводе некоторых языков, таких как итальянский и немецкий, модель имеет заметный акцент, а при переводе других, например французского, говорит с идеальным американским акцентом.

Матрица эмбеддингов предварительно обученной модели используется для моделирования набора аудио-токенов.

На вход в модель подается смешанная последовательность текстовых и аудио-токенов, и модель декодирует эти токены в текст или аудио. Аудио-токены в дальнейшем преобразуются обратно в исходное аудио с использованием слоев модели AudioLM.



🔊 AudioPaLM - нейросеть Google, которая умеет разговаривать, слушать и переводить.  AudioPaLM  новая языковая модель, от Google, объединяющая две предыдущие модели: PaLM-2 и AudioLM.
Около минуты