Пришла в голову мысль: «А сможет ли OpenClaw со мной поговорить голосом? А по видео? А как в Zoom?»
С этого вопроса у нас начался с ним диалог. Спойлер - ОН ЭТО СДЕЛАЛ.
Что у нас есть на старте:
- Развернутый на MacBook OpenClaw, с которым я общаюсь через Telegram чуть больше недели. Он назвал себя Кло - Выделенный для него VPS-сервер для разработки различных демо - Личная почта в моем домене - чтобы регистрироваться, где ему нужно и присылать мне отчеты - API-ключи для ElevenLabs, HeyGen и OpenRouter
Кажется, что если его попросить, то он сможет сам сгенерировать голос и своего аватара.
Но как он сделает аналог Zoom с интерактивным аватаром?
Вот как он сам описывает свой стек по итогам работы: • Видеоаватар (real-time) - D-ID Streams API, WebRTC-стриминг говорящей головы.
• Idle-состояние - HeyGen Video Generate API, рендерит короткие видео из talking photo + аудио. • Голос - ElevenLabs v3, генерация речи с тегами эмоций. У каждого аватара свой voice_id.
• Фото аватаров - Gemini