20 подписчиков

3️⃣ Когда модель видит, слышит и читает одновременно

16 января16 янв

1 мин

Каждый день проходит огромное количество созвонов, совещаний. Если нужен быстрый протокол и встреча была менее, чем 1 час, то использую web-версию Gemini 3 pro. Пример, загружаю запись в Gemini 3 Pro с таким промтом: Сравни все суммы, которые показаны на слайдах, с цифрами, которые называют участники вслух. Для каждого расхождения укажи: временную метку, что на экране, что сказано, кто говорит. Gemini 3 Pro обрабатывает видео и аудио напрямую, без преобразования в текст. Она одновременно "видит" слайды и "слышит" речь. Но без правильного промта модель теряется между модальностями. Ключевые приемы из официальной документации Google: ✨Временные метки Всегда указывайте формат MM:SS в промте. Это заставляет модель привязывать аудио к видео ряду. ✨ Кросс-проверка "Если в речи называют цифру или дату, проверь, совпадает ли она с тем, что на экране в этот момент." ✨ Контекст Если добавить описание типа совещания, модель работает точнее: Это совещание по закрытию проектного этапа. Участник

Каждый день проходит огромное количество созвонов, совещаний. Если нужен быстрый протокол и встреча была менее, чем 1 час, то использую web-версию Gemini 3 pro.

Пример, загружаю запись в Gemini 3 Pro с таким промтом:

Сравни все суммы, которые показаны на слайдах, с цифрами, которые называют участники вслух. Для каждого расхождения укажи: временную метку, что на экране, что сказано, кто говорит.

Gemini 3 Pro обрабатывает видео и аудио напрямую, без преобразования в текст. Она одновременно "видит" слайды и "слышит" речь. Но без правильного промта модель теряется между модальностями.

Ключевые приемы из официальной документации Google:

✨Временные метки

Всегда указывайте формат MM:SS в промте. Это заставляет модель привязывать аудио к видео ряду.

✨ Кросс-проверка

"Если в речи называют цифру или дату, проверь, совпадает ли она с тем, что на экране в этот момент."

✨ Контекст

Если добавить описание типа совещания, модель работает точнее:

Это совещание по закрытию проектного этапа. Участники: руководитель проекта, финансовый директор, бухгалтер. Обсуждается бюджет и сроки.

Проверила на своих записях совещаний. Точность обнаружения расхождений: 89%. Без структурированного промта - 58%.

Мультимодальность работает, только если явно прописать, как связывать разные типы данных. Иначе модель видит и слышит, но не синхронизируется.

P.S.: Google в декабре 2025 запустил Gemini Live API с нативной обработкой аудио. Теперь модель понимает не только слова, но и тон, эмоции, паузы. Для управленца это критично - можно отловить неуверенность в голосе, когда называют цифры.

Всем здоровья, мира и добра!

#ИИпромтингв2026