20,3 тыс подписчиков

ИИ от Google только что обрел уши

25 апреля 202425 апр 2024

2 мин

ИИ-чатботы уже способны "видеть" мир через изображения и видео. Но теперь Google объявила о функциях преобразования звука в речь в рамках своего последнего обновления Gemini Pro. В Gemini 1.5 Pro чатбот теперь может "слышать" аудиофайлы, загруженные в систему, а затем извлекать из них текстовую информацию. Компания выложила эту версию LLM в качестве публичной предварительной версии на своей платформе разработки Vertex AI. Это позволит пользователям, ориентированным на предприятия, экспериментировать с функцией и расширить ее базу после закрытого распространения в феврале, когда модель была впервые анонсирована. Изначально она предлагалась только ограниченной группе разработчиков и корпоративных клиентов. 1. Разбивка и понимание длинного видео Я загрузил весь вчерашний конкурс NBA по данкам и спросил, какой данк получил наибольшее количество баллов. Gemini 1.5 невероятным образом смог найти конкретный идеальный 50-й данк и детали только на основе понимания длинного контекстного видео!

Компания выложила эту версию LLM в качестве публичной предварительной версии на своей платформе разработки Vertex AI. Это позволит пользователям, ориентированным на предприятия, экспериментировать с функцией и расширить ее базу после закрытого распространения в феврале, когда модель была впервые анонсирована. Изначально она предлагалась только ограниченной группе разработчиков и корпоративных клиентов.

1. Разбивка и понимание длинного видео

Я загрузил весь вчерашний конкурс NBA по данкам и спросил, какой данк получил наибольшее количество баллов.

Gemini 1.5 невероятным образом смог найти конкретный идеальный 50-й данк и детали только на основе понимания длинного контекстного видео! pic.twitter.com/01iUfqfiAO

— Rowan Cheung (@rowancheung) 18 февраля 2024 г.

Google поделилась подробностями об обновлении на своей конференции Cloud Next, которая в настоящее время проходит в Лас-Вегасе. Назвав Gemini Ultra LLM, на которой работает чатбот Gemini Advanced, самой мощной моделью семейства Gemini, Google теперь называет Gemini 1.5 Pro своей самой способной генеративной моделью. Компания добавила, что эта версия лучше обучается без дополнительных настроек модели.

Gemini 1.5 Pro является мультимодальной, поскольку может интерпретировать различные типы аудио в текст, включая телепередачи, фильмы, радиопередачи и записи конференц-связи. Она даже многоязычна, поскольку может обрабатывать аудио на нескольких языках. LLM также может создавать транскрипты из видео, однако их качество может быть ненадежным, как отмечает TechCrunch.

При первом анонсе Google объяснила, что Gemini 1.5 Pro использует систему токенов для обработки необработанных данных. Миллион маркеров равен примерно 700 000 слов или 30 000 строк кода. В мультимедийном виде это равносильно часу видео или примерно 11 часам аудио.

Было выпущено несколько закрытых демо-версий Gemini 1.5 Pro, демонстрирующих, как LLM может находить конкретные моменты в видеозаписях. Например, энтузиаст искусственного интеллекта Роуэн Чунг получил ранний доступ и подробно рассказал о том, как его демонстрация нашла точный кадр в спортивном соревновании и кратко описала событие, как показано в твите, вставленном выше.

Однако Google отметила, что другие ранние пользователи, включая United Wholesale Mortgage, TBS и Replit, предпочитают более ориентированные на предприятия сценарии использования, такие как андеррайтинг ипотечных кредитов, автоматизация маркировки метаданных, а также генерация, объяснение и обновление кода.

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Вы также можете прочитать меня здесь:

Telegram: https://t.me/gergenshin
яндекс Дзен: https://dzen.ru/gergen
официальный сайт: https://www-genshin.ru