Добавить в корзинуПозвонить
Найти в Дзене
Нейро дзен

Как сделать генеративную медитацию, и какие подводные камни в генерации голоса⁠⁠

Последние три месяца я выступаю CTO в проекте по генеративным медитациям. Вот он, если интересно. Процесс выглядит так: 🔘 Выбираешь практику (каждая практика — это отдельный ИИ-агент) → 🔘 вводишь свой запрос (он фильтруется LLM-кой на предмет качества/запрещёнки) → 🔘 запрос анализируется и оценивается по множеству параметров → 🔘 LLM генерирует индивидуальную медитацию на основе заданной методологии → 🔘 ElevenLabs генерирует озвучку по множеству кусочков → 🔘 затем специальный хитрый алгоритм аккуратно склеивает аудио с нужными паузами и музыкой. На выходе получается весьма хорошо. Совсем глубоко раскрыть ноу-хау я не могу, но поделюсь важными находками, которые помогут многим в их проектах: 1. YandexGPT и GigaChat хуже расставляют ударения и окончания, чем зарубежный GPT. Даже на русском языке. Поэтому пока не стоит сильно надеяться на наши нейросетки — по крайней мере в таких задачах. 2. GPT-4.1 лучше всех «слушается» промпта, проверено. Почти идеально. Это проверял и в ИИ-саппор
картинка для привлечения внимания
картинка для привлечения внимания

Последние три месяца я выступаю CTO в проекте по генеративным медитациям. Вот он, если интересно. Процесс выглядит так:

🔘 Выбираешь практику (каждая практика — это отдельный ИИ-агент) →

🔘 вводишь свой запрос (он фильтруется LLM-кой на предмет качества/запрещёнки) →

🔘 запрос анализируется и оценивается по множеству параметров →

🔘 LLM генерирует индивидуальную медитацию на основе заданной методологии →

🔘 ElevenLabs генерирует озвучку по множеству кусочков →

🔘 затем специальный хитрый алгоритм аккуратно склеивает аудио с нужными паузами и музыкой.

На выходе получается весьма хорошо. Совсем глубоко раскрыть ноу-хау я не могу, но поделюсь важными находками, которые помогут многим в их проектах:

1. YandexGPT и GigaChat хуже расставляют ударения и окончания, чем зарубежный GPT. Даже на русском языке. Поэтому пока не стоит сильно надеяться на наши нейросетки — по крайней мере в таких задачах.

2. GPT-4.1 лучше всех «слушается» промпта, проверено. Почти идеально. Это проверял и в ИИ-саппорте/ИИ-продажнике, и во многих других задачах. GPT-4.5 и Claude-4 генерируют более оригинальный текст, но хуже следуют инструкциям в промпте.

3. ElevenLabs на текущий момент сильно несовершенна:

• Каждую аудиогенерацию нужно дробить на куски не больше 180-200 символов (а то и меньше), иначе модель начинает галлюцинировать.

• Даже профессиональные (PRO) голоса имеют свои дефекты: у одних возникают проблемы при использовании тире, у других — при простых фразах типа «как будто было так...». Это надо внимательно отслеживать для каждого голоса индивидуально. А сгенерированные голоса могут быть ещё хуже — если голос сгенерировался неудачно, то он переодически может вставлять китайский или идиш.

• Встроенный словарь ударений в ElevenLabs не работает через API, поэтому приходится вручную расставлять букву «ё» и отдельно ударения (например, слова «ноги», «бёдра» и подобные постоянно вызывают проблемы у модели).

• Но и при использовании LLM засада — модели тоже не всегда идеальное расставляют ударения, нужно это ещё делать это аккуратно, а то может стать ещё хуже. Поэтому нужно использовать цепочку LLM, где одна делает текст, вторая расставляет ударения и "ё".

-2

Несмотря на всё это, ElevenLabs — лучшее решение для русского языка на данный момент, проверено практикой. Наши отечественные голосовые модели пока отстают от ElevenLabs примерно на 2 года.

(Google тоже крутая, да, но пока нельзя клонировать голос. А ещё сейчас тестирую fish.audio — тоже неплохо, но пока не elevenlabs, где-то на уровне playHT)

Таким образом, простое решение «взять текст и через API получить идеальную без галлюцнаций озвучку за 1 запрос» пока не работает без костылей и дополнительной настройки.

Хотя, может, у вас есть инсайты? 😉

Вот примеры медитаций, закинул на гугл диск:
PRO голос 1, PRO голос 2, генеративный голос
У западных аналогов по генеративным медитациям вообще медитации без интонации и голос говорит очень быстро.

--

Загляните в мой тг-канал, где делюсь инсайтыми по ИИ-разработке, вайбкодингу и генеративке.