Найти в Дзене
Техно плюс

Google Gemini Пытается перехитрить ChatGPT с помощью искусственного интеллекта для фото и видео

Телефон Google Pixel 8 и чат-бот Bard AI получат выгоду от третьего крупного обновления Google AI в этом году. Google начала внедрять встроенное понимание видео, аудио и фотографий в своего чат-бота Bard AI с новой моделью под названием Gemini. Владельцы телефонов Google Pixel 8 будут одними из первых, кто воспользуется новыми возможностями искусственного интеллекта. Первые воплощения новой технологии появились в среду в десятках стран благодаря обновлению Gemini от Google Bard, но только на английском языке. Она может предоставлять возможности текстового чата, что, по словам Google, улучшает возможности искусственного интеллекта в сложных задачах, таких как обобщение документов, рассуждение и написание программного кода. Более масштабные изменения, связанные с мультимедийными возможностями, например, понимание жестов рук в видео или определение результата детского пазла для рисования "точка к точке", произойдут "скоро", заявили в Google. Gemini - это кардинальный переход к ИИ. Текстов

Телефон Google Pixel 8 и чат-бот Bard AI получат выгоду от третьего крупного обновления Google AI в этом году.

Google обучает и запускает свои модели искусственного интеллекта на стойках, в которых размещены тысячи процессоров TPU. Модель Gemini более эффективна, чем предшественники, такие как PaLM 2, но по-прежнему потребляет много энергии.
Google обучает и запускает свои модели искусственного интеллекта на стойках, в которых размещены тысячи процессоров TPU. Модель Gemini более эффективна, чем предшественники, такие как PaLM 2, но по-прежнему потребляет много энергии.

Google начала внедрять встроенное понимание видео, аудио и фотографий в своего чат-бота Bard AI с новой моделью под названием Gemini. Владельцы телефонов Google Pixel 8 будут одними из первых, кто воспользуется новыми возможностями искусственного интеллекта.

Первые воплощения новой технологии появились в среду в десятках стран благодаря обновлению Gemini от Google Bard, но только на английском языке. Она может предоставлять возможности текстового чата, что, по словам Google, улучшает возможности искусственного интеллекта в сложных задачах, таких как обобщение документов, рассуждение и написание программного кода.

Более масштабные изменения, связанные с мультимедийными возможностями, например, понимание жестов рук в видео или определение результата детского пазла для рисования "точка к точке", произойдут "скоро", заявили в Google.

Gemini - это кардинальный переход к ИИ. Текстовый чат важен, но люди должны обрабатывать гораздо более богатую информацию, поскольку мы живем в нашем трехмерном, постоянно меняющемся мире. И мы реагируем сложными коммуникативными способностями, такими как речь и образы, а не только написанные слова. Gemini - это попытка приблизиться к нашему собственному более полному пониманию мира.

По словам Google, Gemini выпускается в трех версиях, адаптированных для разных уровней вычислительной мощности:

  • Gemini Nano работает на мобильных телефонах, доступны две версии, рассчитанные на разные уровни доступной памяти. В телефонах Google Pixel 8 появятся новые функции, такие как подведение итогов разговоров в приложении Recorder или предложение ответов на сообщения в WhatsApp, набранные с помощью Google Gboard.
  • Gemini Pro, настроенный на быстрое реагирование, работает в центрах обработки данных Google и будет поддерживать новую версию Bard, начиная со среды.
  • Gemini Ultra, пока доступный только для тестовой группы, будет доступен в новом чат-боте Bard Advanced, который должен появиться в начале 2024 года. Google отказалась раскрывать подробности о ценах, но ожидает, что за эту топовую возможность придется заплатить премию.

Новая версия подчеркивает головокружительные темпы продвижения в новой области генеративного искусственного интеллекта, где чат-боты создают свои собственные ответы на запросы, которые мы пишем простым языком, а не тайными инструкциями по программированию.

Главный конкурент Google, OpenAI, опередил конкурентов, запустив ChatGPT год назад, но Google уже работает над третьим крупным пересмотром модели искусственного интеллекта и рассчитывает внедрить эту технологию с помощью продуктов, которыми пользуются миллиарды людей, таких как поиск, Chrome, Google Docs и Gmail.

"Долгое время мы хотели создать новое поколение моделей искусственного интеллекта, вдохновленных тем, как люди понимают мир и взаимодействуют с ним, — искусственный интеллект, который больше похож на полезного сотрудника, а не на интеллектуальное программное обеспечение", — сказал Эли Коллинз, вице-президент по продуктам подразделения DeepMind Google. "Gemini приближает нас на шаг к этому видению".

OpenAI также обеспечивает разработку технологии Microsoft Copilot AI, включая новую модель GPT-4 Turbo AI, которую OpenAI выпустила в ноябре. У Microsoft, как и у Google, есть такие основные продукты, как Office и Windows, в которые она добавляет функции искусственного интеллекта.

Искусственный интеллект становится умнее, но он не идеален

Мультимедиа, вероятно, сильно изменится по сравнению с текстом, когда оно появится. Но что не изменилось, так это фундаментальные проблемы моделей искусственного интеллекта, обучаемых распознавать закономерности в огромных объемах реальных данных.

Они могут превращать все более сложные запросы во все более изощренные ответы, но вы все равно не можете быть уверены, что они просто не дали правдоподобный ответ, а не действительно правильный. Как предупреждает чат-бот Google при его использовании, "Bard может отображать неточную информацию, в том числе о людях, поэтому перепроверьте его ответы".

Gemini - это следующее поколение большой языковой модели Google, продолжение PaLM и PaLM 2, которые до сих пор были основой Bard. Но, обучая Gemini одновременно тексту, программному коду, изображениям, аудио и видео, он способен более эффективно справляться с мультимедийным вводом, чем с отдельными, но взаимосвязанными моделями искусственного интеллекта для каждого режима ввода.

Глядя на ряд фигур, состоящий из треугольника, квадрата и пятиугольника, он может правильно угадать, что следующая фигура в ряду - шестиугольник. Представленный с фотографиями Луны и руки, держащей мяч для гольфа, и попросивший найти ссылку, он правильно указывает, что астронавты "Аполлона" ударили двумя мячами для гольфа по Луне в 1971 году. Он преобразовал четыре столбчатые диаграммы, показывающие методы утилизации отходов по странам, в таблицу с пометками и выявил отдаленные данные, а именно, что в США выбрасывается на свалку гораздо больше пластика, чем в других регионах.

Компания также продемонстрировала, как Gemini обрабатывают написанную от руки задачу по физике, включающую простой эскиз, выясняют, в чем ошибка ученика, и объясняют исправление. Более подробное демонстрационное видео показало, как Gemini распознает голубую утку, ручных кукол, трюки с ловкостью рук и другие видеоролики. Однако ни одна из демонстраций не была вживую, и неясно, как часто Gemini справляются с подобными задачами.

Gemini Ultra ожидает дальнейшего тестирования, прежде чем появится в продаже в следующем году.

Для Gemini Ultra проводится "Red teaming", в рамках которого производитель продукта привлекает людей для поиска уязвимостей в системе безопасности и других проблем. Такие тесты сложнее с мультимедийными входными данными. Например, текстовое сообщение и фотография сами по себе могут быть безобидными, но в сочетании могут передавать совершенно иной смысл.

"Мы подходим к этой работе смело и ответственно", — сказал генеральный директор Google Сундар Пичаи в своем блоге. Это означает сочетание амбициозных исследований с большими потенциальными выгодами, а также добавление мер предосторожности и сотрудничество с правительствами и другими организациями "для устранения рисков по мере того, как ИИ становится более способным".