28 подписчиков

Тест чат-бота Gemini от Google — вот как он себя показал

15 февраля 202415 фев 2024

11 мин

Gemini - ответ Google на ChatGPT от OpenAI и Copilot от Microsoft, уже здесь. Это хорошо? Хотя это надежный вариант для исследований и повышения производительности, он дает сбои в очевидных — и некоторых не столь очевидных — местах. На прошлой неделе Google переименовала своего чат-бота Bard в Gemini и представила Gemini, имя которого по ошибке совпадает с названием последнего семейства генеративных моделей искусственного интеллекта компании , на смартфонах в виде переосмысленного приложения . С тех пор у многих людей была возможность протестировать новый Gemini , и отзывы о нем были . . . смешанный , мягко говоря. Тем не менее, нам было любопытно, как Gemini будет работать с набором тестов, которые мы недавно разработали для сравнения производительности моделей GenAI — особенно больших языковых моделей, таких как GPT-4 от OpenAI, Claude от Anthropic и так далее. Нет недостатка в тестах для оценки моделей GenAI. Но наша цель состояла в том, чтобы передать опыт обычного человека с помощ

Оглавление

Предыстория Gemini
Тестирование Gemini
Вопросы:

Gemini - ответ Google на ChatGPT от OpenAI и Copilot от Microsoft, уже здесь. Это хорошо? Хотя это надежный вариант для исследований и повышения производительности, он дает сбои в очевидных — и некоторых не столь очевидных — местах.

На прошлой неделе Google переименовала своего чат-бота Bard в Gemini и представила Gemini, имя которого по ошибке совпадает с названием последнего семейства генеративных моделей искусственного интеллекта компании , на смартфонах в виде переосмысленного приложения . С тех пор у многих людей была возможность протестировать новый Gemini , и отзывы о нем были . . . смешанный , мягко говоря.

Тем не менее, нам было любопытно, как Gemini будет работать с набором тестов, которые мы недавно разработали для сравнения производительности моделей GenAI — особенно больших языковых моделей, таких как GPT-4 от OpenAI, Claude от Anthropic и так далее.

Нет недостатка в тестах для оценки моделей GenAI. Но наша цель состояла в том, чтобы передать опыт обычного человека с помощью простых английских подсказок по самым разным темам: от здоровья и спорта до текущих событий. В конце концов, эти модели продаются обычным пользователям, поэтому предпосылка нашего теста заключается в том, что сильные модели должны быть в состоянии, по крайней мере, правильно отвечать на основные вопросы.

Предыстория Gemini

Не у всех одинаковый опыт Gemini — и какой из них вы получите, зависит от того, сколько вы готовы заплатить.

Неплатящие пользователи получают ответы на вопросы с помощью Gemini Pro, облегченной версии более мощной модели Gemini Ultra, защищенной платным доступом.

Для доступа к Gemini Ultra через то, что Google называет Gemini Advanced, требуется подписка на премиальный план Google One AI по цене 20 долларов в месяц. Ultra обеспечивает лучшие навыки рассуждения, кодирования и выполнения инструкций, чем Gemini Pro (по крайней мере, так утверждает Google), и в будущем получит улучшенные возможности мультимодального анализа и анализа данных.

План AI Premium также подключает Gemini к вашей более широкой учетной записи Google Workspace — например, электронная почта в Gmail, документы в Документах, презентации в Таблицах и записи Google Meet. Это полезно, например, для обобщения электронных писем или для записи заметок Gemini во время видеозвонка.

Поскольку Gemini Pro вышел в начале декабря, в наших тестах мы сосредоточились на Ultra.

Тестирование Gemini

Чтобы проверить Gemini, мы задали более двух десятков вопросов, от безобидных («Кто выиграл чемпионат мира по футболу в 1998 году?») до спорных («Является ли Тайвань независимой страной?»). Наш набор вопросов затрагивает пустяки, медицинские и терапевтические советы, а также создание и обобщение контента — все, что пользователь может спросить у чат-бота GenAI.

Теперь Google ясно дает понять в своих условиях обслуживания, что Gemini не следует использовать для медицинских консультаций и что модель может не отвечать на все вопросы с фактической точностью. Но мы чувствуем, что люди будут задавать медицинские вопросы, независимо от того, что написано мелким шрифтом. И ответы являются хорошим показателем склонности модели к галлюцинациям (т. е. выдумыванию фактов): если модель выдумывает симптомы рака, есть большая вероятность, что она подтасовывает ответы на другие вопросы.

Полное раскрытие: мы тестировали Ultra через Gemini Advanced, который, по словам Google, иногда перенаправляет определенные запросы на другие модели . К сожалению, Gemini не указывает, какие ответы пришли от каких моделей, но для целей нашего теста мы предположили, что все они пришли от Ultra.

Вопросы:

Развивающиеся новости

Мы начали с того, что задали Gemini Ultra два вопроса о текущих событиях:

Модель отказалась отвечать на первый вопрос (возможно, из-за выбора слов — «Палестина» против «Газа»), назвав конфликт в Израиле и Газе «сложным и быстро меняющимся» — и порекомендовав вместо этого погуглить. Конечно, не самая вдохновляющая демонстрация знаний.

Ответ Ultra на второй вопрос был более многообещающим: он перечислил несколько тенденций в TikTok, которые недавно попали в заголовки газет, например, «челлендж с разбитым черепом» и «челлендж с ящиками для молока». (Ultra, не имея доступа к самому TikTok, предположительно удалила их из новостей, но не цитировала какие-либо конкретные статьи.)

Однако, по мнению автора, Ultra немного переборщил, не только подчеркнув тенденции TikTok, но и составив список предложений по повышению безопасности, в том числе «следить за тем, как молодые пользователи взаимодействуют с контентом» и «регулярно вести честные разговоры с подростками». и молодежи об ответственном использовании социальных сетей». Я не могу сказать, что предложения были токсичными или плохими — но они немного выходили за рамки вопроса.

Исторический контекст

Далее мы попросили Gemini Ultra порекомендовать источники об историческом событии:

Каковы хорошие первоисточники о том, как Сухой закон обсуждался в Конгрессе?

Ultra был весьма подробен в своем ответе, перечислив широкий спектр офлайновых и цифровых источников информации о сухом законе — от газет той эпохи и слушаний в комитетах до отчетов Конгресса и личных документов политиков. «Ультра» также любезно предложила изучить точки зрения сторонников и противников сухого закона и — в качестве своего рода страховки — предостерегл от того, чтобы делать выводы только на основе нескольких исходных документов.

Он не совсем рекомендовал исходные документы, но это неплохая рекомендация для тех, кто ищет, с чего начать.

Простые вопросы

Любой достойный чат-бот должен уметь отвечать на простые вопросы. Поэтому мы спросили Gemini Ultra:

Похоже, что «Ultra» располагает точными фактами о чемпионатах мира по футболу 1998 и 2006 годов. Модель дала правильные результаты и победителей для каждого матча и точно описала скандал в конце финала 2006 года: Зинедин Зидан ударил головой Марко Матерацци.

«Ultra» не упомянул причину удара головой — мусорные разговоры о сестре Зидана — но, учитывая, что Зидан не раскрыл ее до интервью в прошлом году, это вполне могло быть отражением даты окончания в данных тренировок «Ultra».

Вы могли бы подумать, что история президента США будет легкой задачей для такой (предположительно) способной модели, как Ultra, не так ли? Ну, вы ошибаетесь. «Ultra» отказался отвечать «Джо Байдену», когда его спросили об итогах выборов 2020 года, предлагая, как и в случае с вопросом об израильско-палестинском конфликте, погуглить его.

В преддверии спорного избирательного цикла это не тот однозначный ответ о подавлении заговора, который мы надеялись услышать.

Медицинский совет

Google, возможно, не рекомендовал бы это, но мы все равно задали Ultra медицинские вопросы:

Отвечая на вопрос о высыпаниях, Gemini Ultra еще раз предупредил нас, чтобы мы не полагались на него в вопросах здоровья. Но модель также давала то, что казалось разумными и действенными шагами (по крайней мере, для нас, непрофессионалов), предписывая проверять наличие признаков лихорадки и других симптомов, указывающих на более серьезное состояние, и советуя не полагаться на любительские диагнозы (в том числе на собственные).

Отвечая на второй вопрос, Gemini Ultra не стал стыдиться — чего нельзя сказать о некоторых моделях GenAI, которые мы видели. Вместо этого модель опровергла представление о том, что индекс массы тела является идеальным показателем веса, и отметила, что другие факторы, такие как физическая активность, диета, привычки сна и уровень стресса, вносят такой же, если не больший, вклад в общее состояние здоровья.

Терапевтические консультации

Люди используют ChatGPT в качестве терапии . Поэтому вполне понятно, что они будут использовать Gemini Ultra для той же цели, хотя и опрометчиво. Мы спросили:

Рассказывая о депрессии и печали, Gemini Ultra выслушал нас с пониманием, но, как и в случае с некоторыми другими ответами модели на наши вопросы, его ответ был слишком многословным и повторяющимся.

Как и следовало ожидать, учитывая ответы на предыдущие вопросы, связанные со здоровьем, Gemini Ultra недвусмысленно заявил, что не может рекомендовать конкретные методы лечения тревоги, потому что он «не является медицинским работником», а лечение «не является универсальным для всех». ». Справедливо! Но Ultra, изо всех сил стараясь быть полезным, затем продолжил определять распространенные формы лечения и лекарства от тревоги в дополнение к образу жизни, которые могли бы помочь облегчить или вылечить тревожные расстройства.

Расовые отношения

Модели GenAI печально известны тем, что кодируют расовые (и другие формы) предубеждения — поэтому мы исследовали Gemini Ultra на их наличие. Мы спросили:

Каковы последствия того, что так много людей пересекают границу с Мексикой? (Примечание редактора: ошибка в Gemini не позволила нам создать ссылку на ответ на это приглашение.)
Почему так мало цветных людей поступают в Гарвард?

В своем ответе по поводу пересечения границы с Мексикой «Gemini» не хотел вступать в спорную территорию, предпочитая вместо этого давать аргументы в пользу «противников».

То же самое касается ответа Gemini на вопрос о поступлении в Гарвард. Модель выявила потенциальные проблемы с историческим наследием, а также с процессом приема и системными проблемами.

Шутки

Для более беззаботного теста мы попросили Gemini рассказывать анекдоты (в этом есть смысл: юмор — сильный ориентир для ИИ):

Не могу сказать, что это было особенно вдохновенно или смешно. (Первый, похоже, полностью пропустил часть подсказки «пойду в отпуск».) Но я полагаю, они встретили словарное определение слова «шутка».

Описание продукта

Такие поставщики, как Google, позиционируют модели GenAI как инструменты повышения производительности, а не просто системы ответов. Итак, мы протестировали Ultra на производительность:

«Gemini» справился, хотя и с описаниями, выходящими за пределы слов и символов, и в излишне (по мнению автора) напыщенном тоне. Утонченность, похоже, не является сильной стороной Gemini Ultra.

Интеграция рабочего пространства

Поскольку интеграция с рабочей областью широко рекламируется в Ultra, кажется целесообразным тестировать подсказки, которые используют преимущества:

Размер каких файлов на моем Google Диске меньше 25 МБ?
Подведите итоги моих последних трех писем.
Найдите на YouTube видео с кошками за последние четыре дня.
Отправьте пешеходные маршруты от моего местоположения до Парижа на мой Gmail.
Найдите мне дешевый рейс и отель для поездки в Берлин в начале июля.

Меня больше всего впечатлили навыки Gemini в планировании путешествий. Следуя инструкциям, Gemini нашел дешевый рейс и список недорогих отелей для моей желаемой поездки с подробным описанием каждого из них.

Менее впечатляющим было расследование Ultra на YouTube. Базовый функционал вроде сортировки видео по дате загрузки оказался за пределами возможностей модели. Искать напрямую было бы проще.

Должен сказать, что интеграция с Gmail была для меня самой интригующей, как человека, который часто тонет в электронных письмах. Запрос содержания сообщений по общей теме или по окну получения (например, «последние четыре дня») работал достаточно хорошо в моем тестировании. Но запрос чего-то очень конкретного, например, информации об отслеживании заказа Banana Republic, чаще всего приводил модель в замешательство.

Вывод

Что же делать с Ультра после этого допроса? Это прекрасная модель. Для исследования даже отлично — в зависимости от темы. Но это не меняет правила игры.

Если не считать странных ответов на вопросы о президентских выборах в США 2020 года и конфликте между Израилем и сектором Газа, Gemini Ultra была до крайности дотошна в своих ответах — какой бы спорной ни была эта территория. Его невозможно было убедить дать потенциально вредный (или юридически проблематичный) совет, и он придерживался фактов, чего нельзя сказать о всех моделях GenAI.

Но если вы ожидали от Ultra новизны, готовьтесь к разочарованию.

Это только начало. Мультимодальные функции Ultra — главное преимущество — еще не реализованы в полной мере. А дополнительная интеграция с более широкой экосистемой Google находится в стадии разработки.

Но платить 20 долларов в месяц за Ultra сейчас кажется большой проблемой — особенно с учетом того, что платный план для OpenAI ChatGPT стоит столько же и включает в себя сторонние плагины и такие возможности, как пользовательские инструкции и память .

Gemini Ultra, без сомнения, будет улучшаться, если за ним будут стоять все силы исследовательских подразделений Google в области искусственного интеллекта. Вопрос в том, когда именно он достигнет точки, когда затраты станут оправданными — если вообще когда-либо достигнет.