Крупнейшие технологические корпорации вступили в AI-гонку. Свои разработки в области искусственного интеллекта представляют компании, которые занимаются созданием программного обеспечения, производством электроники и формированием новой цифровой реальности. Один из лидеров рынка – Google. Корпорация активно интегрирует ИИ во все сферы бизнеса, начиная от программного обеспечения для смартфонов и заканчивая индустрией интернет-рекламы. Ключевая разработка Google в области ИИ, доступная каждому из нас, ассистент Gemini.
Google не представляла Gemini как отдельный продукт для российского рынка, но это не препятствует использованию сервиса в нашей стране. Пользователи российских аккаунтов могут получить доступ к платформе как через отдельный сайт, так в других программах Google. Gemini отлично понимает русский язык и даже умеет смешно шутить и писать лаконичные стихотворения. Языковая модель способна проверять русскоязычный текст на наличие ошибок, а также корректировать информацию в различных художественных стилях. Россиянам доступен базовый бесплатный вариант Gemini, а версию Advanced с продвинутыми возможностями можно оформить с помощью карты или счета зарубежного банка.
Gemini от Google — это передовая система искусственного интеллекта. Она создавалась не как отдельный продукт. Компания стремилась продемонстрировать миру модель, которую можно было бы интегрировать в различные продукты бренда. Сегодня отдельные функции Gemini уже нашли отражение в Google Search (веб-поиск) и Google Assistant (голосовой ассистент на смартфонах).
Интеллектуальный помощник Gemini нацелен на предоставление более персонализированной информации. Он пригодится пользователям для быстрого и точного распознавания контекста. Благодаря Gemini можно получать сведения об окружающем мире в реальном времени. Например, с помощью «умной камеры» можно автоматически найти понравившийся предмет в интернет-магазине и оформить его доставку или получить подробное описание того или иного объекта, случайно обнаруженного на прогулке. Количество повседневных сценариев, в которые интегрируется ИИ, увеличивается с каждым днем. Пожалуй, совсем привычным делом стало создание визуального контента, написание текстов, перевод в режиме реального времени и контекстный анализ необходимой информации.
На рынке ИИ-решений высокая конкуренция. Каждая нейросеть выделяется своими уникальными чертами. Есть и у Gemini преимущества, которые выгодно отличают языковую модель Google, например, от ChatGPT, принадлежащего OpenAI.
Gemini не стал первым ассистентом, способным выполнять мультимодальные задачи. Однако именно он показал масштабность, эффективность и перспективность этого направления для развития нейросетей. Так, Gemini может описывать изображения, отвечать на вопросы о них и даже генерировать новые изображения на основе заданных параметров. Кроме того, модель способна анализировать видеоконтент, извлекать из него информацию и отвечать на вопросы, связанные с видео. Не станет ограничением и формат текстовых файлов – нейросеть отлично справляется с анализом таблиц и презентаций. Не стоит забывать и о голосе, с ним система также умеет работать. Кажется, нужно еще немного подождать, и мы точно получим возможность вести разумный диалог со смартфоном или планшетом на Android.
Глубокое понимание контекста – одна из важнейших задач, которую ставят перед собой разработчики любой нейросети. Gemini может выдавать сложные логические рассуждения, требующие понимания контекста и связей. Мне нравится, что после текстовой выдачи система формирует перечень вопросов, которые непосредственно связаны с запросом. Иногда не получается точно сформулировать сложную мысль, и нейросеть сама подсказывает наилучший промт в виде вопроса.
Мой опыт сравнения Gemini и ChatGPT показывает, что возможности нейросетей примерно сопоставимы. Однако в некоторых сценариях конкретная модель является наиболее предпочтительной. Так, Gemini весьма точно проверяет текст на опечатки и пунктуационные неточности, не корректируя и не меняя основной смысл текста. Порой это важно для моей работы с научной информацией, ведь довериться нейросетям в написании сложных текстов пока еще сложно. При этом модель Google вполне применима для анализа больших объемов научных данных, поиска новых закономерностей и генерации гипотез.
ИИ от Google выходит за пределы наших мобильных устройств и сервисов компании, которыми пользуются миллионы людей по всему миру. Gemini активно применяется в социальной сфере. Например, буквально пару недель назад Google сообщила о том, что ИИ помогает предотвращать лесные пожары. Система использует спутниковые снимки и с высочайшей точность анализирует территорию площадью 5х5. Непрерывно получаемые данные анализируются каждые 20 минут и при необходимости уведомления поступают в пожарные службы. Другим примером социальной направленности Gemini стала диагностика туберкулеза на основании звуков, издаваемых человеком. Так, Google обучила систему распознавать хрипы и выявлять заболевание. В будущем такие системы для мониторинга здоровья могут появиться в смартфонах.
Попробовать возможности искусственного интеллекта Google может любой, даже пользователь iPhone. Для этого достаточно открыть сайт gemini.google.com .