Большие языковые модели (large language models, LLMs) нынче штука модная и на слуху благодаря их способности довольно связно (иногда) дописывать текст по нескольким начальным словам. Самая знаменитая — GPT-3, у Яндекса есть YaLM и т.д. Но тут исследователи из Гугла предложили и описали в работе AudioLM — машиннообученную модель, которая похожим образом работает со звуками, продолжая устную, а не письменную речь (без преобразования речь в текст и обратно). Звучит местами отлично, а особенно прикольно, когда она продолжает не речь человека, а музыкальные фразы, исполненные на фортепиано. Особенно это все радует на фоне разнообразных успехов генеративных картинок и видео по текстовым затравкам: становится понятно, что со звуковой дорожкой к генеративным визуальным продуктам всё тоже будет хорошо.

Около минуты

8 октября 2022