87,9 тыс подписчиков

Нейросеть Google Gemini 1.5 Pro научилась воспринимать текст на слух

10 апреля 202410 апр 2024

~1 мин

Разработчики Google выпустили обновление для фирменной ИИ-модели, научив её «слышать» пользователя. Теперь Gemini 1.5 Pro умеет обрабатывать аудио с такой же точностью, как и текстовые запросы — это значительно упрощает взаимодействие пользователей с нейросетью. В компании отмечают, что Gemini 1.5 Pro может прослушивать аудио- и видеофайлы, а также генерировать информацию на основе записей звонков без письменных подсказок. По заверению разработчиков, новая версия нейросети, которая должна занять промежуточную позицию среди прочих моделей Gemini, уже сейчас превосходит самую большую и мощную Gemini Ultra. Кроме того, крупное обновление с новыми функциональными возможностями получила ИИ-модель Imagen 2, предназначенная для генерации изображений по текстовому запросу. Теперь с её помощью пользователи смогут добавлять или убирать элементы на картинке, а также наносить невидимые водяные знаки при помощи инструмента SynthID. В компании также отметили, что рассматривают возможность согласован

В компании отмечают, что Gemini 1.5 Pro может прослушивать аудио- и видеофайлы, а также генерировать информацию на основе записей звонков без письменных подсказок. По заверению разработчиков, новая версия нейросети, которая должна занять промежуточную позицию среди прочих моделей Gemini, уже сейчас превосходит самую большую и мощную Gemini Ultra.

Кроме того, крупное обновление с новыми функциональными возможностями получила ИИ-модель Imagen 2, предназначенная для генерации изображений по текстовому запросу. Теперь с её помощью пользователи смогут добавлять или убирать элементы на картинке, а также наносить невидимые водяные знаки при помощи инструмента SynthID.

В компании также отметили, что рассматривают возможность согласования ответов ИИ с поисковой системой Google, чтобы предоставляемая нейросетью информация была наиболее актуальной.

Гаджеты и электроника

5,73 млн интересуются