218 подписчиков

VibeVoice от Microsoft: что на самом деле выложила корпорация и почему 7,5 Гц важнее, чем 60 минут

2 дня назад2 дня назад

7 мин

Я залез в репозиторий и в технический отчёт, потому что новостные пересказы немного смешали всё в одну кучу. Под брендом VibeVoice Microsoft выложила не «одну голосовую модель», а семейство из трёх моделей: 7-миллиардный ASR (распознавание речи), 1,5-миллиардный TTS (синтез речи) и облегчённый 0,5-миллиардный стриминговый TTS. Лицензия MIT, GitHub собрал тридцать три тысячи звёзд, статья по TTS взяла Oral на ICLR 2026 — это, без преувеличений, серьёзный технический релиз. Но интересного там гораздо больше, чем «опенсорснули голосовой ИИ». Сейчас расскажу, что именно работает под капотом и почему я считаю, что главный прорыв здесь — не часовая длина обработки, а одна цифра в архитектуре, которую почти нигде не упоминают. Сначала разложим, что вообще лежит в репозитории, потому что новостные тексты их радостно склеивают. 🎧 VibeVoice-ASR-7B — распознавание речи. Самое свежее (январь 2026). Принимает на вход до 60 минут непрерывного аудио в одном проходе и укладывает его в 64K-токенное ко

Оглавление

Три модели — три разные задачи
Почему 7,5 Гц — это главная цифра в этом релизе
Что это значит на практике

Сейчас расскажу, что именно работает под капотом и почему я считаю, что главный прорыв здесь — не часовая длина обработки, а одна цифра в архитектуре, которую почти нигде не упоминают.

Три модели — три разные задачи

Сначала разложим, что вообще лежит в репозитории, потому что новостные тексты их радостно склеивают.

🎧 VibeVoice-ASR-7B — распознавание речи. Самое свежее (январь 2026). Принимает на вход до 60 минут непрерывного аудио в одном проходе и укладывает его в 64K-токенное контекстное окно модели. Выдаёт структурированный транскрипт кто (who) / когда (when) / что (what) — то есть одновременно делает ASR, диаризацию (разделение на спикеров) и расстановку таймкодов. Поддержка 50+ языков, есть кастомизация горячих слов (полезно для имён, технических терминов, специфичной лексики).

🗣️ VibeVoice-TTS-1.5B — синтез речи в обратную сторону. Генерирует до 90 минут диалога с 4 разными спикерами в одном проходе. Поддерживает английский, китайский, кросс-лингвальный синтез (тренируешь голос на одном языке, генеришь речь на другом) и даже спонтанное пение. Принят как Oral на ICLR 2026 — для голосового синтеза это очень круто.

⚡ VibeVoice-Realtime-0.5B — стриминговый TTS для реального времени. Полмиллиарда параметров, ~300 мс задержки до первого аудио, поддерживает потоковый ввод текста (то есть можно скармливать токены LLM по мере их генерации). Делает связные ~10 минут речи на голос. Экспериментальные голоса на девяти языках уже включены, в том числе немецкий, французский, итальянский, японский, корейский.

И вот тут важная мелочь, которую новости пропустили: TTS-модель в августе 2025-го выложили, а в сентябре 2025-го код вырезали — Microsoft честно написали, что нашли случаи использования инструмента «не по заявленному назначению» (читай: дипфейки), и убрали репозиторий. Сейчас веса есть на Hugging Face, но кнопка «попробовать» в README перечёркнута, демки ограничены. ASR и Realtime-варианты выложены полностью. Это, кстати, очень показательная история про то, как Big Tech сейчас балансирует между опенсорс-репутацией и реальностью.

Почему 7,5 Гц — это главная цифра в этом релизе

А теперь та техническая деталь, которую я считаю настоящим прорывом VibeVoice. Все обсуждают «60 минут в одном проходе», но это следствие, а не причина. Причина — в том, как они токенизируют звук.

Стандартный подход в современных аудио-LLM: дискретные нейронные токенизаторы, которые работают на частотах в районе 50–75 Гц. То есть на каждую секунду звука приходится 50–75 токенов. Хочешь обработать 60 минут? Это 180 000–270 000 токенов только под аудио. Ни в какое контекстное окно не помещается, приходится резать на чанки и потом сшивать — а на стыках теряется и контекст, и спикерская консистентность.

Microsoft сделали континуальные (непрерывные) акустический и семантический токенизаторы, работающие на 7,5 Гц. Это в 7–10 раз меньше, чем у конкурентов. Почему вообще получилось так сжать? Идея в том, что речь — сигнал с огромной избыточностью. Фонема длится в среднем 80–100 мс, слог — 200–300 мс. Большая часть фреймов на 50 Гц несёт почти ту же информацию, что и соседние. Если научить токенизатор кодировать семантически значимые куски целиком (а не отдельные миллисекунды), частоту можно радикально снизить без потери разборчивости. Континуальные токены здесь принципиальны: дискретный словарь на 7,5 Гц схлопнулся бы в кашу, а непрерывное представление сохраняет богатство сигнала.

Теперь арифметика становится приятной: 60 минут × 7,5 токенов/сек ≈ 27 000 токенов. Уже легко влезает в 64K-окно вместе с инструкциями и предыдущим контекстом. Отсюда честный один проход (single-pass) на часовом аудио без чанкования.

Поверх этого работает связка next-token diffusion: LLM-бэкбон (под капотом — Qwen2.5 1.5B, то есть Microsoft построили это на опенсорсной модели Alibaba) понимает текст и логику диалога, а отдельная диффузионная голова генерирует уже акустические детали. Это уже не классический авторегрессионный TTS из 2023-го — здесь LLM-механика отвечает за «что сказать», а диффузия — за «как это звучит». Архитектурно это сильно ближе к тому, что делает SoundStorm и Voicebox от Meta, но Microsoft объединили это в один опенсорсный стек.

Что это значит на практике

Я попробую отделить то, что действительно меняет ландшафт, от маркетинга.

📞 Расшифровки часовых записей в один заход. Это реальный переломный момент (game-changer) для журналистов, юристов, ресёрчеров и поддержки. Whisper-large по-прежнему режет аудио на 30-секундные окна и сшивает — на длинных созвонах это даёт перепутанных спикеров и расходящиеся имена. ASR-модель Microsoft решает это структурно, а не пост-обработкой. Если вы когда-нибудь делали диаризацию двухчасового интервью — вы поймёте, насколько это прорыв.

🎙️ Подкасты на любом языке без актёров озвучки. 90 минут связного диалога с четырьмя голосами — это, по сути, готовая фабрика NotebookLM-стайл подкастов. Только теперь без зависимости от Google и с возможностью локального инференса.

🤖 Голосовые агенты в реальном времени. Realtime-0.5B с задержкой ~300 мс — это уже близко к тому, что делает голосовой ChatGPT или Sesame. Только опенсорсное и развёртываемое локально, без отправки голоса пользователя в облако.

🌍 Доступность. Это, на мой взгляд, самое недооценённое применение. Плагин-чтец для людей с дислексией или слабым зрением, читающий длинные документы естественно, без роботизации — теперь полностью оффлайн.

🛠️ Кастомизация под домен. Ключевые слова с повышенным приоритетом распознавания (Hotwords в ASR) — это очень утилитарная штука. Если вы транскрибируете медицинские записи, юридические протоколы или техническую конференцию — стандартные ASR постоянно фейлят на терминах. Тут можно подсунуть словарь и получить нормальное качество.

А теперь о неприятном — про дипфейки и MIT

Microsoft в README прямым текстом пишет, что модель может быть использована для создания убедительного фейкового аудио, и не рекомендует её к коммерческому применению без дополнительной обвязки. Тот сентябрьский эпизод 2025-го — когда они вырезали TTS-код из репозитория — был вполне реальной реакцией на реальное злоупотребление.

Тут возникает парадокс, который я не очень понимаю, как разрешать. С одной стороны, MIT-лицензия и опенсорс — это выигрыш (win) для академии, разработчиков, исследователей. С другой стороны, выложить часовой высококачественный синтез речи (high-fidelity) TTS под MIT — это всё равно что положить шотган на лавочку у подъезда с табличкой «пожалуйста, пользуйтесь ответственно». Я ставлю на то, что в течение 2026 года мы увидим первый громкий судебный кейс с подделанным голосом, сделанным именно на VibeVoice или его форке. Не потому что модель «плохая» — а потому что это естественная динамика, и регуляция всегда отстаёт.

С моей точки зрения, водяные знаки в аудио (audio watermarking — то, что делает AudioSeal от Meta) должны были бы быть обязательной частью релиза. Microsoft этого не сделали. На фоне их собственной блокировки в сентябре 2025 года это выглядит как минимум непоследовательно.

Мой прогноз

Думаю, в ближайшие полгода произойдёт три вещи. Во-первых, форки появятся быстро — комьюнити уже допилит fine-tuning под русский (его в коробке нет, есть только в ASR, и то базово), украинский, языки с малыми ресурсами. Во-вторых, Realtime-вариант начнут массово вкручивать в локальных голосовых ассистентов поверх Llama/Qwen — стек «локальный LLM + локальный TTS + локальный ASR» наконец-то стал по-настоящему рабочим без облаков. В-третьих, мы получим всплеск автоматически генерируемых подкастов на десятках языков, и почувствуем, как меняется само понятие «голосового контента» — потому что граница между «человек начитал» и «модель начитала с подаренного голоса» окончательно размывается.

И ещё одна вещь, которую стоит держать в голове: тот факт, что это работает на бэкбоне Qwen2.5 от Alibaba, — отдельно показательная штука. Microsoft, у которой свой Phi и партнёрство с OpenAI, выбирает китайскую опенсорсную LLM в качестве основы для голосового стека. Это очень хорошая иллюстрация, насколько фактически интернациональным остаётся опенсорс-AI несмотря на все геополитические разговоры.

VibeVoice — это не «ещё одна голосовая модель». Это первая открытая система, которая правильно решает фундаментальную проблему длинного аудио через сжатие частоты токенизации, а не через хитрое чанкование сверху. Это ровно то, как двигается фронтир — не за счёт «больше параметров», а за счёт «правильное представление данных».

Источники

🔗 Репозиторий VibeVoice на GitHub — github.com/microsoft/VibeVoice

🔗 Project Page — microsoft.github.io/VibeVoice

🔗 Коллекция моделей на Hugging Face — huggingface.co/collections/microsoft/vibevoice

🔗 Технический отчёт по VibeVoice-ASR (arXiv) — arxiv.org/pdf/2601.18184

🔗 Статья по VibeVoice-TTS на ICLR 2026 (Oral) — openreview.net/pdf?id=FihSkzyxdv

🔗 Базовая работа по next-token diffusion — arxiv.org/abs/2412.08635

🔗 ASR Playground (попробовать в браузере) — aka.ms/vibevoice-asr

🔗 Русскоязычный пересказ — Telegra.ph