Google DeepMind выпустила конкурента ChatGPT под названием Gemini, и он способен понимать и создавать несколько типов медиаконтента, включая изображения, видео, аудио и текст.
Большинство инструментов искусственного интеллекта (ИИ) могут понимать и создавать только один тип контента. Например, ChatGPT от OpenAI "читает" и создает только текст. Но Gemini может генерировать несколько видов вывода на основе любой формы ввода, сообщает Google в своем блоге.
Три версии Gemini 1.0 включают Gemini Ultra, самую крупную версию, Gemini Pro, которая внедряется в цифровые сервисы Google, и Gemini Nano, предназначенную для использования на устройствах, таких как смартфоны.
Согласно техническому отчету DeepMind о чатботе, Gemini Ultra превзошла GPT-4 и другие ведущие модели искусственного интеллекта в 30 из 32 ключевых академических критериев, используемых в исследованиях и разработках в области искусственного интеллекта. Среди них высшая школьная экзаменация и тесты по морали и праву.
Gemini выиграла в девяти критериях по восприятию изображений, шести тестах по пониманию видео, пяти в распознавании речи и переводе, а также в 10 из 12 бенчмарков по тексту и рассуждениям. Два случая, в которых Gemini Ultra не смогла обойти GPT-4, связаны с рассуждениями на основе здравого смысла, согласно отчету.