ИИ-чатботы уже способны "видеть" мир через изображения и видео. Но теперь Google объявила о функциях преобразования звука в речь в рамках своего последнего обновления Gemini Pro. В Gemini 1.5 Pro чатбот теперь может "слышать" аудиофайлы, загруженные в систему, а затем извлекать из них текстовую информацию. Компания выложила эту версию LLM в качестве публичной предварительной версии на своей платформе разработки Vertex AI. Это позволит пользователям, ориентированным на предприятия, экспериментировать с функцией и расширить ее базу после закрытого распространения в феврале, когда модель была впервые анонсирована. Изначально она предлагалась только ограниченной группе разработчиков и корпоративных клиентов. 1. Разбивка и понимание длинного видео Я загрузил весь вчерашний конкурс NBA по данкам и спросил, какой данк получил наибольшее количество баллов. Gemini 1.5 невероятным образом смог найти конкретный идеальный 50-й данк и детали только на основе понимания длинного контекстного видео!