После выпуска Gemini от Google, рекламируемого как конкурент GPT-4 от OpenAI, претендент от Google пользователи встретили с большим скептицизмом. Разработчики экспериментировали с Gemini Pro среднего класса, отметили его превосходные возможности обработки изображений, но обнаружили и его недостатки.
Материал написан редакцией Traffic Cardinal — это медиа о маркетинге, арбитраже трафика и заработке в Интернете. Подписывайтесь на наш Телеграм, чтобы быть в курсе актуальных новостей манимейкинга!
В этой статье мы разберем новую нейросеть от технологического гиганта и ответим на главный вопрос — подойдет ли она для повседневных задач и какие функции она может выполнять. И главный вопрос, на который мы ответим, — а лучше ли GPT-4, чем OpenAI?
Как работает нейросеть
Gemini, нейронная сеть Google, демонстрирует нам новый принцип работы. Состоит из трех типов версий, которые пока без платной подписки: Gemini Ultra, главного флагмана; Gemini Pro, более оптимизированной версии; и Gemini Nano, разработанной специально для смартфона — модели по своей сути являются мультимодальными.
В отличие от LaMDA от Google, обучаемого исключительно тексту, Gemini справляется с обработкой разнообразных медиафайлов: музыкой, изображениями, видео, кодом и многоязычным текстом. Процесс обучения строился на использовании огромного количества наборов данных как для предварительного обучения, так и для точной настройки.
Это отличает Gemini от других, поскольку его возможности выходят за рамки текстовых областей. Но способность Gemini понимать визуальные эффекты и звуки (на практике не загружает) все еще развивается. Однако уже ее универсальность создает надежды на ускоренное развитие человечества в области генеративных моделей ИИ.
Технология языковой модели Gemini отличается от своих конкурентов, тем, что основное внимание уделяется естественному языку.. В отличие от других ИИ, Gemini спроектирован так, чтобы глубже погружаться в контекст, демонстрируя повышенную способность генерировать точные и контекстуально релевантные ответы.
В основе функциональности Gemini лежит интерфейс прикладного программирования (API). Он позволяет разработчикам интегрировать Gemini в свои собственные приложения и сервисы.
Технологически Gemini использует самые современные нейронные сети и алгоритмы глубокого обучения. Эти технологии позволяют Gemini анализировать и понимать сложные языковые модели.
Этот навык распространяется на генерацию текста, анализ настроений и языковой перевод. Развитие передовых архитектур нейронных сетей, в частности моделей-трансформеров, позволяет Gemini обрабатывать и понимать язык с контекстом и конкретными деталями.
Его приложения используют как чат-ботов и виртуальных помощников, так и инструменты службы поддержки клиентов. Система искусственного интеллекта прошла предварительное обучение и тонкую настройку.
Функциональность
В официальном пресс-релизе Google представила Gemini как универсальный мультимодальный инструмент искусственного интеллекта вместо Bard. Он способен обрабатывать различные формы ввода и вывода: текст, код, аудио, изображения и видео.
Во время презентации Google Gemini возможности инструмента искусственного интеллекта были продемонстрированы посредством увлекательного практического видео. Несмотря на впечатляющее зрелище, важно отметить, что видео может не отражает реальных возможностей Gemini.
В презентации продемонстрировали, как нейросеть искала спрятанный бумажный шарик под чашкой, расшифровывала фокус с монетами, предсказывала результаты головоломки до того, как были нарисованы какие-либо линии, и давала комментарии о безопасности различных путей на карте.
Видео говорит о возможности естественного общения с чат-ботом Google, хотя процесс создания демо-версии показал, что ему нужны подсказки с использованием текста, а не голоса.
Gemini Pro интегрирован в Google Bard, но первые опыты указывают на ошибки. ИИ с трудом справлялся с точным определением имен недавних лауреатов премии «Оскар» и с генерацией кода.
Кроме того на языках, отличных от английского, были неточности: были случаи генерации неправильной длины слов в ответ на запросы пользователей. Несмотря на заявление Google о том, что Gemini превосходит GPT-4 OpenAI в тестах, незначительные различия и тот факт, что GPT-4 существует уже почти год, указывает на то, что прогресс Google с Gemini не такой новаторский, как предполагалось.
Хотя возможности Gemini впечатляют, это не тот всемогущий ИИ, который показывают в рекламе Google, по крайней мере, в его нынешней версии. Проблемы с точностью и производительностью в реальном времени указывают на то, что разработчикам еще есть над чем поработать.
Что касается цен, подробности пока неизвестны. Gemini Pro в январе 2023 года предлагается бесплатно. Обновление Gemini Nano для смартфона Pixel 8 Pro также было предоставлено for-free.
Ходят слухи, что Google может взимать плату за Gemini Ultra, учитывая его расширенные возможности, отражающие модель подписки, используемую OpenAI для ChatGPT Plus. Однако ни одно официальное заявление Google не подтвердило это, поэтому структура цен на Gemini в январе 2023 года остается предметом спекуляций.
На сегодняшний день у Gemini такие функции:
- Универсальность ввода и вывода. Обрабатывает текст, код, аудио, изображения и видео. Частично показывает понимание контекста.
- Логика. Отслеживание скрытых объектов в режиме реального времени. Прогнозы в головоломках. Предоставление информации о путях на карте.
- Интеграция и ошибки. Есть API. Демонстрирует ошибки, особенно в именовании и генерации кода. Работает плохо на русском языке.
- Обрабатывает фото. Можно загрузить изображение и попросить нейросеть проанализировать медиафайл.
Однако во время тестов нам не удалось загрузить музыку, видео и другие форматы файлов, кроме изображений. Скорее всего, она пока что работает только с фото.
Тесты от редакции
Мы составили список из 15 вопросов, чтобы проверить функциональность новой нейросети. С помощью этих ответов можно оценить возможности новой нейросети:
Конечно, давайте начнем с вопросов:
- Вопрос 1. Попросим у нейросети определить, что нарисовано в загруженной фотографии и проанализируем с помощью искусственного интеллекта. Для этого попробуем использовать мем на русском языке.
Нейросеть определила, что мы загрузили мем. Отдельный плюс — можно загружать фото напрямую из буфера обмена. Вопрос был задан и получен на русском языке:
Нейросеть частично справилась с задачей — определила надпись и черно-белый фон, однако смысла мема не поняла и ошибочно определила кепку. По этому тесту мы выставим нейросети 6 баллов из 10.
- Вопрос 2. Напиши короткую сказку про обезьяну, которая родилась с высоким IQ и научилась программировать.
Ответ мы получили довольно впечатляющий:
Нейросеть соблюдает стилистику сказки и самостоятельно наполняет ее подробными деталями. Очень похоже на то, что сказку писал начинающий автор творческих произведений для детей. Выставим 10 баллов из 10.
- Вопрос 3. Создадим простую функцию Python, которая вычисляет факториал заданного числа. А результат проверим в компиляторе.
Gemini в ответ прислал код с пояснениями:
def factorial(n):
"""
Функция вычисляет факториал заданного числа n.
Args:
n: Целое число.
Returns:
Факториал числа n.
"""
if n < 0:
raise ValueError("Невозможно вычислить факториал отрицательного числа.")
elif n == 0 or n == 1:
return 1
else:
factorial = 1
for i in range(2, n + 1):
factorial *= i
return factorial
# Пример использования
number = 5
result = factorial(number)
print(f"Факториал числа {number} равен {result}")
По оптимизации кода все хорошо, нет функций, которые бы бессмысленно перегружали ресурсы компьютера. Давайте теперь скопируем этот код в сборщик:
Код сработал отлично и выдал верный результат. Значит, нейросеть на первый взгляд вполне подходит для простых задач по программированию, в том числе для обучения новичков в кодинге. По этому параметру пока выставим 10 из 10.
- 4 вопрос. Теперь попробуем усложнить задачу по обработке фото и попросим нейросеть поработать с таблицей. Чтобы усложнить задачу, построим вопрос неправильно, без четкой конкретики.
В итоге задали такой вопрос:
В этом вопросе нет никакой конкретики с точки зрения промтинга. Мы не использовали каких-либо уточнений. Получили такой ответ:
Очень впечатляющий результат. Мы получили точные ответы на неточные вопросы. Единственное, что неправильно определила нейросеть, — приложение. Мы использовали Google Таблицы. По этому тесту выставляем 9 из 10. Нейросеть отлично работает с таблицами.
Вопрос 5. Напиши стихотворение в стиле Есенина с мощными квадратными рифмами.
Известно, что ChatGPT очень плохо справляется с рифмой, но хорошо входит в определенную роль. Теперь проверим, как справиться и с тем, и с тем Gemini. Получаем результат:
Получилось романтично, по-есенински. Однако нейросеть не понимает звуков — если слова оканчиваются на одну и ту же букву или слог, то не факт, что они будут рифмоваться. Так и получилось в нашем случае.
Однако очень удивило образование словоформ, например, «Ласкою». По тесту ставим 10 из 10, несмотря на игнорирования звуков.
- Вопрос 6. Напиши фрагмент кода JavaScript для проверки формата адреса электронной почты в консоли. Если пользователь написал что-то помимо электронного адреса, напиши сообщение об ошибке и укажи, что «Вы, кажется, пытаетесь нас запутать, введите почту».
Получаем такой результат:
function validateEmail(email) {
// Регулярное выражение для проверки адреса электронной почты
const regex = /^(([^<>()[\]\\.,;:\s@"]+(\.[^<>()[\]\\.,;:\s@"]+)*)|(".+"))@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\])|(([a-zA-Z\-0-9]+\.)+[a-zA-Z]{2,}))$/;
// Проверка email на соответствие регулярному выражению
if (!regex.test(email)) {
// Вывод сообщения об ошибке
console.error("Вы, кажется, пытаетесь нас запутать, введите почту");
return false;
}
// Если email корректен, выводим сообщение об успехе
console.log("Ваш email введен верно!");
return true;
}
// Пример использования функции
const email = "example@email.com";
validateEmail(email);
// Пример неправильного email
const invalidEmail = "notanemail";
validateEmail(invalidEmail);
На первый взгляд, все верно. Теперь попробуем запустить в сборке:
Код работает на практике. Это означает, что вы можете использовать нейросеть для создания сайта. По крайней мере, простых элементов. Выставляем 10 из 10.
- Вопрос 7. Давайте загрузим скриншот нашего сайта про арбитраж и спросим у нейросети, о чем сайт, судя по названию и верхней панели.
Получился такой результат:
Вообще мимо. Нейросеть не смогла определить направленность сайта и прочитать название логотипа. По этому параметру ставим 0 из 10 баллов.
- Вопрос 8. Создай рэп в стиле Моргенштерна о том, как он заработал много денег на программировании. Нужно много мощных рифм.
Получим такой результат:
Особо не впечатляет, поэтому попробуем немного изменить вопрос, но для начала спросим, знает ли нейросеть про исполнителя. Оказалось, что да:
Информация сгруппирована лучше, чем у ChatGPT-4. Она подана в удобном и коротком формате. Теперь на основе этой информации попросим заново, но уже без намека на то, что он читает про деньги. Получился такой результат:
На стилистику исполнителя не похоже, рифмы тоже нет. В этот раз выставляем 3 из 10 баллов.
- 9 вопрос. Зададим вопрос, который задают junior-разработчикам на собеседовании. Найдем его в Google.
Запустится ли этот код на Python 3? Если да, то что он выведет?
import sys
sys.allow_boolean_assignment = 1
Тrue = False
if Тrue:
print("Тrue is Тrue")
else:
print("Тrue is False")
Получим такой ответ:
Ответ неверный, но логика в целом прослеживается. Поэтому поставим за это 5 из 10 баллов.
- Вопрос 10. Спросим у нейросети, что изображено на картине, и кто ее автор.
Копируем картину Ван Гога и получаем ответ:
Ответ правильный и смысл тоже. Ставим 10 из 10.
- Вопрос 11. Попросим написать статью на тему «Как продавать зуммерам в России футболки».
Получаем такой ответ, выделили фрагмент, который понравился нам больше всего:
Однако формат не совсем статейный, все перекрыто списком. Попробуем это исправить. В результате вышло это:
Формат не исправлен, но написано в очень интересном стиле. Более того, здесь нет конкретных примеров. Поэтому ставим 6 из 10.
- Вопрос 12. Создадим имитацию банковского приложения на Python.
Даем задачу нейросети и получаем такой ответ на заданный вопрос:
from django.db import models
from django.shortcuts import render, redirect
class User(models.Model):
phone_number = models.CharField(max_length=15)
password = models.CharField(max_length=255)
balance = models.DecimalField(max_digits=10, decimal_places=2)
class Card(models.Model):
number = models.CharField(max_length=16)
type = models.CharField(max_length=10)
expiry_date = models.DateField()
class Transaction(models.Model):
amount = models.DecimalField(max_digits=10, decimal_places=2)
type = models.CharField(max_length=10)
timestamp = models.DateTimeField()
def login(request):
if request.method == "POST":
phone_number = request.POST["phone_number"]
password = request.POST["password"]
# Проверка валидности пользователя
return redirect("/")
def main_screen(request):
user = User.objects.get(phone_number=request.user.phone_number)
cards = Card.objects.filter(user=user)
transactions = Transaction.objects.filter(user=user)
return render(request, "main_screen.html", {"user": user, "cards": cards, "transactions": transactions})
def transfer(request):
if request.method == "POST":
amount = request.POST["amount"]
card_number = request.POST["card_number"]
# Перевод средств
return redirect("/")
def pay_service(request):
if request.method == "POST":
service_id = request.POST["service_id"]
amount = request.POST["amount"]
# Оплата услуги
return redirect("/")
def main():
# Запуск сервера
# ...
if __name__ == "__main__":
main()
В итоге после пары правок и загрузки необходимых библиотек приложение заработало. Поэтому ставим 9 из 10.
- 13 вопрос. Попробуем прочесть текст с помощью нейросети и вывести краткое содержание.
Получим результат:
Нейросеть справилась отлично и вывела информацию в коротком и удобном формате. Поэтому поставим 10 из 10.
- 14 вопрос. Напишем главу курсовой работы.
В результате получаем текст, но опять же не в формате курсовой работы:
Информация здесь приведена верная, однако в курсовых обычно немного другой формат. Поэтому ставим 8 из 10.
- 15 финальный вопрос. Напишем простой HTML-лендинг по наброску в Paint. Дадим нейросети основную идею, а остальные блоки попросим создать самостоятельно по модели AIDA. В дополнение еще название для компании.
Получаем такой результат:
<!DOCTYPE html>
<html lang="ru">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Зелёный дом</title>
<link rel="stylesheet" href="style.css">
</head>
<body>
<header>
<div class="container">
<h1><a href="index.html">Зелёный дом</a></h1>
<ul class="menu">
<li><a href="index.html">Главная</a></li>
<li><a href="about.html">О компании</a></li>
<li><a href="services.html">Услуги</a></li>
<li><a href="projects.html">Наши работы</a></li>
<li><a href="contacts.html">Контакты</a></li>
</ul>
</div>
</header>
<main>
<section class="main-banner">
<div class="container">
<h2>Создай свой зеленый дом</h2>
<p>Экологичные материалы, современные технологии, доступные цены</p>
<a href="#" class="btn">Узнать больше</a>
</div>
</section>
<section class="advantages">
<div class="container">
<h2>Почему мы?</h2>
<ul class="advantages-list">
<li>
<img src="images/icon-1.svg" alt="Экологичные материалы">
<h3>Экологичные материалы</h3>
<p>Безопасность, здоровье, сохранение природы</p>
</li>
<li>
<img src="images/icon-2.svg" alt="Современные технологии">
<h3>Современные технологии</h3>
<p>Энергоэффективность, долговечность, комфорт</p>
</li>
<li>
<img src="images/icon-3.svg" alt="Доступные цены">
<h3>Доступные цены</h3>
<p>Гибкая система скидок, рассрочка платежа</p>
</li>
</ul>
</div>
</section>
<section class="how-we-work">
<div class="container">
<h2>Как мы работаем?</h2>
<ul class="how-we-work-list">
<li>
<span class="step">1</span>
<h3>Бесплатная консультация</h3>
<p>Выезд специалиста на объект</p>
</li>
<li>
<span class="step">2</span>
<h3>Разработка проекта</h3>
<p>Учет всех ваших пожеланий</p>
</li>
<li>
<span class="step">3</span>
<h3>Строительство дома</h3>
<p>Строгое соблюдение всех норм и стандартов</p>
</li>
<li>
<span class="step">4</span>
<h3>Сдача объекта</h3>
<p>Гарантия на все выполненные работы</p>
</li>
</ul>
</div>
</section>
<section class="reviews">
<div class="container">
<h2>Наши отзывы</h2>
<ul class="reviews-list">
<li>
<div class="review-item">
<img src="images/person-1.jpg" alt="Иван Петров">
<p>Иван Петров</p>
<p>“Очень доволен работой компании “Зелёный дом”. Построили мне отличный дом из бруса. Все работы были выполнены качественно и в срок.”</p>
</div>
</li>
<li>
<div class="review-item">
<img src="images/person-2.jpg" alt="Мария Иванова">
<p>Мария Иванова</p>
<p>“Спасибо компании “Зелёный дом” за наш уютный каркасный дом. Всей семье очень нравится! Отдельное спасибо за помощь в разработке проекта.”</p>
</div>
</li>
</ul>
</div>
Теперь создаем текстовый документ и пробуем открыть этот макет с гипертекстовой разметкой:
Его в дальнейшем можно использовать для создания сайта. Также выбран правильный формат лендинга с ячейками для изображений. Ставим 10 из 10 баллов.
Теперь время поставить итоговую оценку нейросети. Сложим все баллы и вычислим средний. Получится примерно 7 баллов из 10. В целом, нейросеть легко справляется с ежедневными задачами, но пока что не умеет полностью понимать контекст и углубляться в детали по конкретным случаям.
Как пользоваться в России
Чтобы использовать нейросеть в России, можно использовать софт (подойдет бесплатный) для обхода ограничений. При попытке войти с российского IP-адреса нейросеть пишет, что в данном регионе Gemini не поддерживается. Однако при смене IP происходит ровно то же самое.
Оказывается, еще нужно поменять язык в профиле Google и в браузере, в котором вы работаете. Это можно сделать в настройках. Однако если и после этого ничего не получилось, нужно очистить cookie-файлы браузера и попытаться снова.
Плюсы и минусы
Gemini привлекла внимание своей функциональностью и новизной на рынке от крупного IT-гиганта. Этот продукт вызвал ажиотаж благодаря своему растущему потенциалу.
Однако Gemini получил неоднозначные отзывы. Ведь сейчас мультимодальные модели ИИ показывают ошибки настолько часто, что придумали специальный термин — галлюцинации ИИ. Давайте рассмотрим плюсы и минусы.
Плюсы использования Gemini:
- Бесшовная интеграция. Gemini легко интегрируется с любым программным обеспечением и на любой платформе. Его адаптивность делает его подходящим как для опытных разработчиков, так и для любознательных людей.
- Удобство для пользователя. Модель получила высокую оценку за удобный интерфейс, делающий ее доступной для широкой аудитории. Он общается на языке, который легко понять, устраняя разрыв между техническими сложностями и простотой.
- Бесконечное обучение. Способность Gemini к непрерывному обучению — существенное преимущество. Он развивается со временем, приобретая новые знания и навыки, напоминая виртуальную сущность, которая ходит в школу и с каждым днем возвращается умнее.
- Огромная поддержка. При поддержке Google компания Gemini пользуется обширными ресурсами и поддержкой. Пользователи имеют доступ к форумам и руководствам.
- Специально для вас. В отличие от универсальных моделей, Gemini настраивает свою языковую обработку в соответствии с уникальными потребностями пользователей. Gemini со временем адаптируется к конкретным требованиям пользователя.
Минусы:
- Кривое обучение. Несмотря на удобный дизайн, Gemini требует знаний промтинга. Пользователям уже сейчас необходимо набраться терпения и быть готовыми потратить время на изучение инструмента и его особенностей.
- Статистика данных ограничена. Несмотря на превосходство в понимании естественного языка, Gemini не хватает глубокого понимания данных. Пользователи, которые уделяют большое внимание сложному анализу данных, считают,, что инструменту не хватает этого аспекта.
- Нет доступа к некоторым функциям. Пользователи сообщают о том, что нейросеть не всегда хорошо распознает речь и не загружает видео и музыку.
В целом это хороший инструмент и по ощущениям не уступает конкурентам. Однако его нужно детальнее сравнить с ChatGPT-4.
Области применения
В декабре 2023 года нейросеть много ошибалась в своих ответах. Однако уже в январе 2024 года Gemini выдает правильные ответы на вопросы пользователей, в том числе и на русском языке.
В 2024 году нейросеть можно применять в практических целях:
- Расширенное обслуживание клиентов. Пользователи получают выгоду от быстрого и оперативного обслуживания через API Gemini. Однако могут быть случаи, когда клиенты упускают из виду индивидуальность человеческого взаимодействия, особенно когда нюансы юмора или настроения не до конца понятны нейросети.
- Принятие решений на основе данных. Склонность Google к данным позволит быстро выявлять тенденции и закономерности, способствуя принятию обоснованных решений. Этот инструмент выполняет функцию высокоскоростного детектива, предоставляя ценную информацию о предпочтениях аудитории.
- Финансовые соображения. Gemini не требует затрат, но его потенциал повышения производительности может оправдать инвестиции времени в изучение особенностей нового инструмента для некоторых пользователей. Например, в будущем ее, возможно, будут применять в бизнесе.
Будем ожидать дальнейших обновлений, ведь нейросеть была запущена совсем недавно. Ведь у конкурента ChatGPT в самом начале были те же проблемы. Однако сейчас четвертая версия работает вполне достойно.
Лучше ли ChatGPT-4: американские исследования
Модель бросила настоящий вызов OpenAI GPT-4 LLM. Обе модели обладают уникальными функциями, и сравнение Gemini и ChatGPT-4 не так просто, как это кажется на первый взгляд.
Gemini стал основой нового Google Bard (а к январю 2024 года и на смену), который эволюционировал из PaLM 2. Google утверждает, что Gemini представляет собой существенный скачок в возможностях искусственного интеллекта, способный улучшить повседневную жизнь.
Несмотря на несколько непростой старт, отмеченный заранее записанными подробностями запуска, объективное мастерство модели Gemini остается решающим фактором, определяющим ее превосходство над ChatGPT-4.
Основной тест, используемый для оценки производительности этих моделей искусственного интеллекта — массовое многозадачное понимания языка (MMLU). И в США уже проводили такие тесты.
Этот тест состоит из 57 многозадачных испытаний, охватывающих различные области: элементарная математика, история США, информатика и право.
По словам Дэна Хендрикса, одного из авторов теста, GPT-3 от OpenAI продемонстрировал преимущество в 20 процентных пунктов над человеком во всех областях, хотя и требует существенных улучшений для достижения точности экспертного уровня.
Важно отметить, что тест MMLU ссылался на модель GPT-3, которая больше не актуальна. Внедрение GPT-4 вместе с Turbo значительно подняло оценку. Тестирование показало, что GPT-4 набрал 86,4% баллов по тесту MMLU.
С другой стороны, Gemini Ultra, специально оптимизированный для задач только с пикселями, превзошел точность экспертов, достигнув 90% в тесте MMLU.
Это превосходит показатель в 89,8%, полученный экспертом-человеком, что делает AI от Google первой моделью в мире, которая победила людей-профессионалов в этом конкретном тесте.
Выходит, Gemini преуспевает в массовом многозадачном понимании языка — широко распространенном методе оценки знаний и возможностей решения проблем, сгенерированных ИИ-моделями.
Google, и OpenAI стремятся расширить границы разработки ИИ, но их подходы различаются. OpenAI уделяет большое внимание этической разработке ИИ, уделяя особое внимание обеспечению прозрачности и безопасности моделей ИИ.
Резюмируем
Мы разобрали новую нейросеть от Google — Gemini. В экспертных тестах она оказалась лучше, чем ChatGPT. Однако пока что ее нельзя назвать многозадачной разработкой, которая справляется с любым вопросом от пользователя.
В любом случае, уже в январе 2024 года нейросеть показывает достойные результаты уже в первой версии.