284 подписчика

Можно ли позвонить своему AI-агенту?

17 марта17 мар

2 мин

Пришла в голову мысль: «А сможет ли OpenClaw со мной поговорить голосом? А по видео? А как в Zoom?»

С этого вопроса у нас начался с ним диалог. Спойлер - ОН ЭТО СДЕЛАЛ.

Что у нас есть на старте:

- Развернутый на MacBook OpenClaw, с которым я общаюсь через Telegram чуть больше недели. Он назвал себя Кло - Выделенный для него VPS-сервер для разработки различных демо - Личная почта в моем домене - чтобы регистрироваться, где ему нужно и присылать мне отчеты - API-ключи для ElevenLabs, HeyGen и OpenRouter

Кажется, что если его попросить, то он сможет сам сгенерировать голос и своего аватара.

Но как он сделает аналог Zoom с интерактивным аватаром?

Вот как он сам описывает свой стек по итогам работы: • Видеоаватар (real-time) - D-ID Streams API, WebRTC-стриминг говорящей головы.

• Idle-состояние - HeyGen Video Generate API, рендерит короткие видео из talking photo + аудио. • Голос - ElevenLabs v3, генерация речи с тегами эмоций. У каждого аватара свой voice_id.

• Фото аватаров - Gemini

Пришла в голову мысль: «А сможет ли OpenClaw со мной поговорить голосом? А по видео? А как в Zoom?»

С этого вопроса у нас начался с ним диалог. Спойлер - ОН ЭТО СДЕЛАЛ.

Что у нас есть на старте:

Кажется, что если его попросить, то он сможет сам сгенерировать голос и своего аватара.

Но как он сделает аналог Zoom с интерактивным аватаром?

• Фото аватаров - Gemini

Пришла в голову мысль: «А сможет ли OpenClaw со мной поговорить голосом? А по видео? А как в Zoom?»

С этого вопроса у нас начался с ним диалог. Спойлер - ОН ЭТО СДЕЛАЛ.

Что у нас есть на старте:

- Развернутый на MacBook OpenClaw, с которым я общаюсь через Telegram чуть больше недели. Он назвал себя Кло - Выделенный для него VPS-сервер для разработки различных демо - Личная почта в моем домене - чтобы регистрироваться, где ему нужно и присылать мне отчеты - API-ключи для ElevenLabs, HeyGen и OpenRouter

Кажется, что если его попросить, то он сможет сам сгенерировать голос и своего аватара.

Но как он сделает аналог Zoom с интерактивным аватаром?

Вот как он сам описывает свой стек по итогам работы:

• Видеоаватар (real-time) - D-ID Streams API, WebRTC-стриминг говорящей головы.
• Idle-состояние - HeyGen Video Generate API, рендерит короткие видео из talking photo + аудио. • Голос - ElevenLabs v3, генерация речи с тегами эмоций. У каждого аватара свой voice_id.
• Фото аватаров - Gemini 3 Pro Image через OpenRouter, фотореалистичные портреты.
• Мозги - OpenRouter -> Claude Sonnet, каждый аватар со своим system prompt и личностью. • Фронт - Vanilla JS, WebRTC. Zoom-like UI: 16:9 тайлы, split-view, тулбар, боковой чат.
• Бэк - Node.js на VPS, Caddy reverse proxy -> HTTPS. Автоочистка зависших стримов.

• Поток: пользователь пишет -> Sonnet генерит ответ -> ElevenLabs озвучивает -> D-ID анимирует лицо -> WebRTC стрим в браузер. Все за 2-4 секунды.

Но самое интересное - именно процесс создания :)

HeyGen ужесточил правила для интерактивных аватаров - теперь нужно подтверждение личности. Кло уперся в стену. И что он сделал? Нашел альтернативу - D-ID. Качество чуть ниже, но для демо - вполне.

Дальше - он сам зарегистрировался на свою почту, подтвердил письмо, настроил API-ключ через свой браузер. И начал создавать говорящих аватаров.

Собрать мини-Zoom на WebRTC для него оказалось вообще не проблемой - приложение заработало на выделенном сервере с первого раза. Пару комментариев по дизайну и всё готово.

на видео - вы все видите сами.

Вот что здесь важно. Агент не просто выполнил задачу. Он столкнулся с препятствием, самостоятельно нашел обходной путь, зарегистрировался в новом сервисе, настроил интеграцию и довел до работающего продукта. Без единого вопроса ко мне.

Автономность агентов с появлением OpenClaw и аналогов будет только расти. Новые возможности и новые риски (он так уже у меня менял whisper на платный ynadex STT) :)

Пришла пора переходить на новые форматы общения.

❗ Если этот пост соберет 100 реакций
- на следующей неделе проведу открытый вебинар, где покажу:
- как у меня это все работает - как правильно и безопасно разговаривать с Claude Code и OpenClaw
- что будет съедать большую часть вашего времени
- а где эти инструменты способны поднять вашу продуктивность до небес

@ReymerDigital

Гаджеты и электроника

5,73 млн интересуются