Найти в Дзене
Радиорубка Лихачёва

Локальные AI-субтитры в VLC

В век стриминговых сервисов, казалось бы, standalone-проигрыватели оказались на задворках технологического развития и должны бы уйти в прошлое. Но нифига: у видеоплеера VLC уже больше 6 млрд скачиваний, и их число продолжает расти (два года назад их было лишь 4,2 млрд), рассказал Жан-Батист Кемпф, президент и основатель VideoLAN, компании-разработчика плеера. Штат VideoLAN — чуть больше 100 человек, она работает с 2009 года, а сам плеер зародился ещё в 1996 году в качестве студенческого проекта Ecole Centrale Paris. Всё это время он работает по бесплатной модели, живя только на донаты пользователей: ни рекламы, ни каких-то сомнительных сделок. В этом году ребятам хватило средств, чтобы поставить небольшую будку на крупнейшей техноконференции CES в Лас-Вегасе. Просто стойка, cчётчик установок, два монитора и Жан-Батист как рассказчик — всё это для того, чтобы показать новую функцию AI-субтитров. Главная фишка — они создаются локально на устройстве: как и для проигрывания видео, для этог

В век стриминговых сервисов, казалось бы, standalone-проигрыватели оказались на задворках технологического развития и должны бы уйти в прошлое. Но нифига: у видеоплеера VLC уже больше 6 млрд скачиваний, и их число продолжает расти (два года назад их было лишь 4,2 млрд), рассказал Жан-Батист Кемпф, президент и основатель VideoLAN, компании-разработчика плеера.

Штат VideoLAN — чуть больше 100 человек, она работает с 2009 года, а сам плеер зародился ещё в 1996 году в качестве студенческого проекта Ecole Centrale Paris. Всё это время он работает по бесплатной модели, живя только на донаты пользователей: ни рекламы, ни каких-то сомнительных сделок.

В этом году ребятам хватило средств, чтобы поставить небольшую будку на крупнейшей техноконференции CES в Лас-Вегасе. Просто стойка, cчётчик установок, два монитора и Жан-Батист как рассказчик — всё это для того, чтобы показать новую функцию AI-субтитров.

Главная фишка — они создаются локально на устройстве: как и для проигрывания видео, для этого используются аппаратные ресурсы, а не облачные. Расшифровка из аудио в текст поддерживает более 100 языков, а работает всё на базе «opensource-моделей» — каких именно, не уточняется, однако надпись «французские технологии» на будке лично меня заставляет предположить, что под капотом французская Mistral 7B, которая неплохо справляется с языковыми задачами.

Пока что эта функциональность лишь тестируется: в последней версии VLC 3.0.21 её нет. Но и на этом инновации не заканчиваются: ребята также встраивают в плеер аудиостандарт IAMF для пространственного звучания, в том числе с поддержкой бинаурального звука на основе opensource-решений.

В общем, показывают, какие действительно должны быть opensource и AI-инновации. Купертиновцам с их 4-триллионной капитализацией и Apple Intelligence стоило бы обратить внимание.