Найти в Дзене
Нейро Арт

Как я собрал свой ИИ-аватар на коленке.Heygen пока может не волноваться

Привет, друзья! Сегодня расскажу, как я решил создать своего ИИ-аватара в стиле HeyGen, но без подписок и прямо на своём компьютере. Спойлер: получилось смешно, странно и местами даже круто. Поехали! Сперва давайте разберёмся, что вообще такое HeyGen и почему это так круто (и дорого). HeyGen — это платформа, которая позволяет создавать профессиональные видео с цифровыми аватарами. Представьте: вы загружаете текст, выбираете аватар (или создаёте своего), и через пару минут получаете видео, где этот аватар говорит вашими словами. Это как если бы у вас был личный актёр, который всегда готов записать ролик для YouTube, презентацию для работы или даже поздравление для бабушки. Круто, правда? Но есть нюанс: HeyGen — это платный сервис, и цены там кусаются. Подписки начинаются от десятков долларов в месяц, а если хочется больше функций, то счёт идёт на сотни. Которая мне и сказала: а почему бы не сделать что-то похожее, но бесплатно и на своём компьютере? Конечно, мой вариант не такой мощный,
Оглавление

Привет, друзья! Сегодня расскажу, как я решил создать своего ИИ-аватара в стиле HeyGen, но без подписок и прямо на своём компьютере. Спойлер: получилось смешно, странно и местами даже круто. Поехали!

Пара слов о Heygen

Сперва давайте разберёмся, что вообще такое HeyGen и почему это так круто (и дорого).

HeyGen — это платформа, которая позволяет создавать профессиональные видео с цифровыми аватарами. Представьте: вы загружаете текст, выбираете аватар (или создаёте своего), и через пару минут получаете видео, где этот аватар говорит вашими словами. Это как если бы у вас был личный актёр, который всегда готов записать ролик для YouTube, презентацию для работы или даже поздравление для бабушки.

Круто, правда? Но есть нюанс: HeyGen — это платный сервис, и цены там кусаются. Подписки начинаются от десятков долларов в месяц, а если хочется больше функций, то счёт идёт на сотни.

В дело вступает жаба

Которая мне и сказала: а почему бы не сделать что-то похожее, но бесплатно и на своём компьютере? Конечно, мой вариант не такой мощный, как HeyGen, но зато он полностью мой. И, честно говоря, процесс создания аватара оказался даже веселее, чем сам результат.

Теперь, когда вы знаете, что такое HeyGen и почему я решил сделать свою версию, давайте перейдём к самому интересному — как я собрал своего ИИ-аватара на коленке!

Для нетерпеливых: цепочка инструментов получилась такая. AllTalk v2 + xtts + rvc webui + sadtalker.

Мой пайплайн: от текста до говорящей головы

Представьте, что это конструктор из пяти кубиков. Каждый этап — как новый уровень в игре, где можно что-то сломать, но потом гордиться результатом.

Шаг 1: Сочиняем историю
Тут два пути: либо сочиняешь текст сам, либо просишь нейросеть вроде DeepSeek, ChatGPT, да десятки их сейчас :) Можно сперва набросать в нейронке, потом дошлифовать вручную. Но я для эксперимента не стал заморачиваться.

Шаг 2: Озвучка своим голосом
Тоже есть вагон и тележка вариантов. Я решил попробовать AllTalk v2, с моделью XTTS ( она же coqui tts). Основное предназначение - транслирование текста в речь. Умеет говорить какими-то предустановленными голосами, но можно и клонировать свой голос.

Шаг 3: Добавляем эмоций
Тут на помощь приходит RVC — инструмент, который используется для переозвучивания уже существующей записи. Я нашел RVC сборку с графическим интерфейсом, натренировал в ней модель со своим голосом, и применил ее поверх уже сгенерированного на предыдущем шаге звука.

Шаг 4: Оживляем картинку
Опять же, не претендую на лучший выбор, но пока что решил попробовать SadTalker. Возможно, доберутся руки до DeepFaceLab или FaceFusion, сравню что и как. Работает просто - берем картинку, берем звук, выставляем пару флажков, жмем кнопку и идем пить чай.

Ну и на выходе получаем видос вроде того что ниже. Понятное дело, тут еще шлифовать и разбираться, но результат уже заметен, и местами даже забавен.

Допиливаем красоту (опционально)
DeepFaceLab
: Вроде можно как-то обработать видео и сделать движение губ более четким и натуральным. но...


Шаг 5: Topaz Video AI
Ну или другой апскейлер, тут тоже еще не определился. Чтоб я не выглядел как герой Майнкрафта или фанат кубизма

Бочка дегтя в ложке меда

Теперь о неприятном. Это все не всегда юзер-френдли. Сейчас я для затравки сделал этот пост, чтобы показать, что результат возможен, даже без платных сервисов. Гайды будут позже - напишу отдельные статьи, что и откуда качать, как ставить, и что со всем этим добром можно поделать.

С чем неприятным можно столкнуться в процессе:

Подготовка датасета. Вне зависимости от того, насколько хороший у вас набор исходных файлов с образцом речи, датасет готовить - довольно долго и муторно, особенно на среднем домашнем железе. У меня RTX 3060ti и 32ГБ памяти, и я смирился с тем, что комп приходится оставлять на ночь, чтобы он там себе шуршал и тренировался.

Нейросеть плохо умеет в удАренья. Тут только пробовать и экспериментировать, рабочей схемы добиться правильного произношения некоторых слов я так и не смог.

Мимика. Знаете же про эффект зловещей долины? Ну так а что вы хотели от собранного в гараже робота Вернера?

Анатомия. Из той же серии. Иногда SadTalker вытягивает шею персонажу, или неестественно растягивает голову, отрывает анимированную часть от статичной, и т.п. Получается довольно крипово, но настройками это можно чуть-чуть подправить. Ну и надо быть готовым потратить несколько попыток, чтобы получилось что-то более-менее.

Итоги: это того стоит?

Да, если вы готовы к экспериментам и не боитесь смешных багов. Мой аватар пока далёк от идеала, но зато:

  • Всё работает локально — никакой слежки и платных подписок.
  • Можно хвастаться перед друзьями: «Смотри, это я, но цифровой!».
  • Процесс как LEGO для взрослых: собрал, сломал, собрал заново.

В качестве полноценного ИИ аватара то, что пока получается, явно не подходит, но вот как говорящая голова в уголке экрана при скринкастах - вполне сгодится.

На этом пока все, для затравки хватит. А в других статьях уже напишу более подробные технические гайды. Всем пока!

-2

P.S. Картинка для заставки поста тоже сгенерирована нейронкой ;)