Найти тему
AIBullet

Разоблачение технологического гиганта: Правда об искусственном интеллекте Gemini от Google, которую вам не показали!

Оглавление

Ранее я уже писал статью о Gemini под названием "Google Переворачивает Мир искуственного интеллекта: Знакомьтесь с Gemini - моделью, превосходящей человеческий разум!", но в положительном ключе. Однако, после того как она стала доступна в чат боте Bard, мы совместно с коллегами решили протестировать ее способности, о которых рассказывалось в презентации! Давайте вместе разбираться с подробностями.

Исторический контекст разработки Gemini в Google обнажает увлекательное путешествие компании в мире искусственного интеллекта (ИИ), отражающее её стремление к новаторству и лидерству в технологической индустрии.

В начале своего пути, Google была больше известна как поисковая система, но со временем компания начала активно интегрировать элементы ИИ в свои продукты. Это включало внедрение машинного обучения для улучшения поисковых алгоритмов, а также применение ИИ в таких сервисах, как Google Photos и Google Translate. Эти ранние шаги заложили фундамент для более глубокого исследования возможностей ИИ.

Особое внимание заслуживает приобретение Google компанией DeepMind в 2014 году. DeepMind быстро стало ключевым игроком в разработке ИИ, прославившись своими достижениями в области глубокого обучения и нейросетевых технологий. Проекты DeepMind, такие как AlphaGo, произвели настоящий фурор, демонстрируя способность ИИ обучаться и превзойти человека в сложных интеллектуальных играх, таких как Го и шахматы.

Важной вехой на пути к созданию Gemini стала разработка и запуск языковой модели PaLM 2. Эта модель стала значительным прорывом для Google в области обработки естественного языка. PaLM 2 отличалась усовершенствованными способностями понимания и генерации текста, что положило начало новой эре в разработке языковых моделей в компании.

Концепция Gemini зародилась как логическое продолжение этого пути. Во-первых, компания стремилась превзойти собственные достижения с PaLM 2, представив что-то более мощное и универсальное. Во-вторых, Google хотела ответить на вызовы, поставленные конкурентами в лице OpenAI и их моделью GPT-4, которая на тот момент устанавливала стандарты в области языковых моделей. Именно поэтому Gemini была задумана как мультимодальная модель, способная работать не только с текстом, но и с изображениями, видео и аудио, чем она и отличалась от своих предшественников.

Обещанные функции и возможности Gemini

-2

Gemini, стоя на плечах своего предшественника PaLM 2, была задумана как модель, которая не просто следует трендам в развитии искусственного интеллекта, но и задает новые стандарты в этой быстро развивающейся области.

Главной отличительной чертой Gemini является её мультимодальность. Это означает, что модель способна работать не только с текстом, но и с другими типами данных, такими как изображения, видео и аудио. Это расширение возможностей открывает новые горизонты для применения искусственного интеллекта, позволяя Gemini анализировать и интерпретировать данные более сложным и интегрированным способом.

Примеры использования мультимодальных функций включают распознавание объектов на изображениях, интерпретацию и создание видеоконтента, а также обработку и анализ аудиофайлов. Эти способности открывают возможности для более глубокого понимания контекста и создания более интуитивного взаимодействия с пользователем.

В контексте сравнения с другими крупными языковыми моделями, такими как GPT-4 от OpenAI, Gemini стремится превзойти существующие стандарты. Одним из ключевых аспектов, на которые Google делает ставку в Gemini, является улучшенное понимание и генерация естественного языка, что делает общение с моделью более естественным и интуитивно понятным.

Кроме того, Google утверждает, что Gemini имеет преимущество в точности и скорости обработки запросов по сравнению с GPT-4. Это включает более точное понимание нюансов языка и контекста, что делает ответы модели более релевантными и полезными.

Gemini также была разработана с учетом последних достижений в области искусственного интеллекта. К примеру, использование усовершенствованных алгоритмов машинного обучения и глубокого обучения позволяет модели эффективно адаптироваться к новым данным и сценариям использования. Это, в свою очередь, делает Gemini более гибкой и способной к обучению на основе обратной связи от пользователей.

Вирусное видео на презентации

6 декабря стало знаковым днём для Google и всей индустрии искусственного интеллекта, когда компания представила свою последнюю разработку - мультимодальную модель искусственного интеллекта под названием Gemini. Презентация была направлена на демонстрацию уникальных возможностей Gemini и её отличий от предыдущих моделей ИИ.

Ключевым моментом мероприятия стало показ видеоролика, в котором пользователь взаимодействовал с моделью Gemini. На видео демонстрировались различные сценарии использования модели, включая обработку естественного языка, распознавание и интерпретацию изображений, а также анализ и генерацию аудиовизуального контента. Особое внимание было уделено возможности модели воспринимать и отвечать на человеческий голос, что было представлено как большой прорыв в области ИИ.

В одном из сегментов видео пользователь общался с Gemini, используя естественный язык, задавая вопросы и получая мгновенные и точные ответы. В другой части демонстрировалось, как модель распознает объекты и сцены на фотографиях, предоставляемых пользователем, и создаёт описания или отвечает на вопросы, связанные с этими изображениями.

Реакция общественности и наблюдателей на видеоролик

Видеоролик быстро приобрёл вирусную популярность, собрав миллионы просмотров на различных платформах. Однако вместе с восхищением от технологического прорыва, представленного Google, появились и скептические голоса. Некоторые наблюдатели и эксперты в области ИИ выразили сомнения в том, что показанное в видео является точным отражением текущих способностей Gemini.

Среди основных точек критики были утверждения о том, что в демонстрации были использованы предварительно подготовленные сценарии и что в реальной жизни взаимодействие с моделью может быть менее гладким и мгновенным. Также были высказаны предположения о том, что некоторые ответы модели могли быть заранее запрограммированы, а не сгенерированы в реальном времени.

С другой стороны, многие зрители и пользователи выразили восторг от потенциальных возможностей Gemini, особенно в отношении её мультимодальных способностей. Видео вызвало обширные обсуждения о будущем искусственного интеллекта и о том, как технологии, подобные Gemini, могут трансформировать повседневную жизнь, бизнес и образование.

-3

Google, в свою очередь, поддерживала утверждения о высоком уровне развития Gemini, подчеркивая её способность к обработке сложных запросов и взаимодействию с пользователями на невиданном до сих пор уровне. Компания также подчеркнула, что видеоролик был создан не только для демонстрации текущих возможностей модели, но и для показа её потенциального будущего развития.

Сравнительный анализ с GPT-4 и критика методологии тестирования

Gemini от Google и GPT-4 от OpenAI являются двумя из самых продвинутых моделей искусственного интеллекта на сегодняшний день, каждая из которых обладает своими уникальными характеристиками и возможностями.

  • Общие Особенности: Обе модели способны обрабатывать и генерировать естественный язык, понимать контекст запросов и предоставлять информативные, релевантные ответы. Однако Gemini отличается мультимодальностью, способностью работать с различными типами данных, в то время как GPT-4 ограничена текстовыми данными.
  • Технические Детали и Инновации: Gemini, как утверждает Google, включает улучшения в области понимания и генерации естественного языка, а также превосходит в точности и скорости обработки запросов. GPT-4, с другой стороны, известна своей способностью к глубокому пониманию и созданию более сложных и продуманных ответов.

Одним из ключевых аспектов в сравнении этих двух моделей является методология тестирования, используемая для оценки их возможностей.

  • Chain-of-Thought (Цепочка Мыслей): В тестировании Gemini использовался метод chain-of-thought, который подразумевает создание логических цепочек рассуждений для решения задач. Это позволяет модели демонстрировать свою способность к сложным интеллектуальным операциям. Однако использование этого метода может быть не всегда справедливо при сравнении с другими моделями, такими как GPT-4, которые могли быть протестированы с использованием других подходов.
  • Жадное Декодирование (Greedy Decoding): Ещё одним спорным моментом является использование Google жадного декодирования в тестировании Gemini. Этот метод выбирает на каждом шаге наиболее вероятное продолжение, что может влиять на разнообразие и глубину сгенерированных ответов.

Разбор вопросов честности и справедливости в методах тестирования

  • Сопоставимость Условий Тестирования: Ключевым вопросом в сравнении этих моделей является обеспечение сопоставимости условий тестирования. Отсутствие единых стандартов и критериев оценки может привести к недопониманию и неверным выводам о способностях и превосходстве одной модели над другой. При этом приводятся данные разных методик тестирования. Для GPT-4 промптинг выполнялся в стиле 5-shot, для Gemini Ultra — CoT@32. Это значит, что GPT-4 получала в промпте примеры решения нескольких похожих задач, а Gemini Ultra попросили написать chain-of-thought, цепочку рассуждений. Кроме консенсуса из 32 попыток Google дала своему детищу в бенчмарках другое преимущество: понижала температуру тогда, когда согласия не находилось, и применяла жадное декодирование (greedy decoding). А вот в бенчмарке MMLU с 5-shot БЯМ Gemini Ultra набрала всего 83,7 %.
-4

Прозрачность Методологии: Прозрачность в методологии тестирования также играет важную роль. Важно, чтобы компании предоставляли подробные данные о том, каким образом и в каких условиях тесты были проведены, чтобы результаты были понятны и проверяемы.

  • Независимая Валидация: Независимая валидация результатов тестов от сторонних исследователей может помочь обеспечить более объективное и точное сравнение способностей моделей.

А что на самом деле?

Промоциональное видео Gemini от Google было представлено как витрина передовых технологий искусственного интеллекта. Однако, после тщательного анализа и сравнения с реальными возможностями модели, выявились некоторые расхождения между демонстрируемыми функциями и их практическим применением.

  • Общая Оценка Возможностей: Несмотря на впечатляющие демонстрации в видео, вопросы остаются относительно того, насколько хорошо Gemini справляется с разнообразными задачами в реальных условиях. Это касается её способности к мгновенному ответу, пониманию сложных запросов и обработке мультимодальных данных.

Примеры из видео

  • Игра в Напёрстки: В промо-видео Gemini продемонстрировала способность мгновенно и точно отслеживать перемещения предметов в игре. Однако, на практике такое задание требует от ИИ не только распознавания объектов, но и понимания их движения и изменений во времени, что является значительно более сложной задачей. В блоге указано, что модели пришлось объяснять состояние каждого этапа. Надо задать естественным языком положение стаканов и начального положения шарика:
Instructions: There are three cups in position 1 (left), position 2 (middle), position 3 (right).
Starting position: The ball is in position 3.
Current state: empty, empty, ball

Затем модель получает два примера решения задачи. В каждом из них показаны три изображения, где стаканы передвигают, и дан правильный ответ, где находится шарик после этих перестановок.

Лишь затем Gemini решает такую же задачу уже самостоятельно. Решение выглядит далеко не так увлекательно, как та болтовня из видеоролика.

Шарик находится под первым слева стаканом. Gemini получает текстовый промпт:

Images:
-5
Swap:

Ответ Gemini следует формату ответов из примеров:

1 and 3
Current state: empty, empty, ball

Следует отметить, что при этом конкурент из OpenAI - ChatGPT4 смог решить эту задачу с первого раза

-6

Викторина: В демонстрации, Gemini быстро отвечала на вопросы викторины, предполагая глубокое понимание контекста и быстроту обработки данных. В реальности, такая скорость и точность ответов может зависеть от множества факторов, включая сложность вопроса и доступность информации.

Генерация изображений: На видео также представлено как Gemini может с легкостью генерирвать изображения по описанию да и еще с высокой точностью, но на деле все оказалось не так красочно и ярко. Для наглядности сравнение от Dall-E 3 и Gemini

-7

Проблема преувеличения возможностей ИИ в маркетинговых целях

Проблема преувеличения возможностей искусственного интеллекта в маркетинговых целях не нова и выходит за рамки одного только продукта Gemini.

  • Маркетинговый Гиперболизм: Промо-видео часто создаются с целью произвести максимально сильное впечатление на аудиторию, что может привести к преувеличению реальных способностей продукта. В случае Gemini, это могло привести к созданию нереалистичных ожиданий от модели.
  • Влияние на Восприятие Общественностью: Преувеличенные утверждения могут влиять на общественное восприятие ИИ, создавая ошибочное представление о текущем уровне развития технологий. Это, в свою очередь, может привести к неправильным ожиданиям и потенциальному разочарованию в реальных продуктах.
  • Необходимость Критического Подхода: Важно подходить к подобным демонстрациям с критическим мышлением, понимая, что маркетинговые видео часто предназначены для продвижения продукта, а не для точного представления его способностей.

В заключении хотелось бы отметить, что маркетинговые стратегии, применяемые в презентации продуктов ИИ, играют значительную роль в формировании общественного мнения о возможностях и пределах современных технологий. Преувеличенные демонстрации возможностей моделей, таких как Gemini, могут влиять на восприятие общественностью, создавая ожидания, которые далеки от реальности. Это может привести к ошибочным представлениям о текущем уровне развития ИИ и его способностях, что важно учитывать как для потребителей, так и для разработчиков.

Искусственный интеллект продолжает развиваться бурными темпами, и его потенциал в будущем кажется поистине грандиозным. Однако с этим ростом возникают важные вопросы этичности и прозрачности. Важно, чтобы разработчики и компании, работающие в этой области, придерживались высоких стандартов ответственности и честности в представлении своих продуктов. Это не только поможет в формировании реалистичных ожиданий у общественности, но и способствует более здоровому и устойчивому развитию технологий ИИ.

Чтобы не пропустить эти и другие новинки в мире искусственного интеллекта подписывайтесь на мой канал AIBullet.