Общая технология Google представил Gemini — новую архитектуру искусственного интеллекта, которая способна на все Google показал свою новую технологию ИИ, которая сможет конкурировать с GPT-4, вот как она устроена. Google Искусственный интеллект и машинное обучение уже стали неотъемлемой частью нашей повседневности, от рекомендации видео с котиками в сети до распознавания лиц на смартфонах. И хотя мы все думали, что мир ИИ замедлит свой темп развития, этого не случилось. Подтверждение тому: Google почти час говорил об искусственном интеллекте на своей последней презентации на I/O, где также продемонстрировал передовые устройства, такие как Pixel Fold. Поэтому неудивительно, что новое поколение архитектуры ИИ компании, названное Gemini, заслуживает внимания. Gemini может создавать и обрабатывать текст, изображения и другие виды данных, такие как графики и карты. Да, вы не ошиблись — будущее ИИ не ограничивается чатботами или генераторами изображений. Насколько впечатляющими могут показаться эти инструменты сегодня, Google считает, что они далеки от раскрытия полного потенциала технологии. Поэтому в этой статье давайте разберемся, чего хочет достичь Google с Gemini, как он работает и почему он сигнализирует о будущем ИИ.
Что такое Google Gemini: не просто модель языка Gemini — это следующее поколение архитектуры ИИ от Google, которая в конечном итоге заменит PaLM 2. Сейчас последняя стоит за многими сервисами ИИ компании, включая чатбот Bard и Duet AI в приложениях Workspace, таких как Google Docs. Проще говоря, Gemini позволит этим сервисам одновременно анализировать или генерировать текст, изображения, аудио, видео и другие типы данных. Благодаря ChatGPT и Bing Chat вы, наверное, уже знакомы с моделями машинного обучения, которые могут понимать и создавать естественный язык. И то же самое с генераторами изображений ИИ — с одной строкой текста они могут создавать прекрасное искусство или даже фотореалистичные изображения. Но Google Gemini пойдет на шаг дальше, так как он не привязан к одному типу данных — и поэтому вы можете слышать его называют «мультимодальной» моделью. Вот пример, который показывает впечатляющие возможности мультимодальной модели, взятый с блога Google AI Research. Он показывает, как ИИ может не только извлекать признаки из видео, чтобы сгенерировать краткое изложение, но и отвечать на последующие текстовые вопросы. Способность Gemini сочетать визуальные и текстовые данные также должна позволить ему генерировать больше одного вида данных одновременно. Представьте себе ИИ, который мог бы не только написать содержание журнала, но и разработать макет и графику для него. Или ИИ, который мог бы суммировать целую газету или подкаст на основе тем, которые вас больше всего интересуют.
В чем отличие Gemini от других больших языковых моделей? Калвин Ванкхеде / Android Authority Gemini отличается от других больших языковых моделей тем, что он не обучается только на тексте. Google говорит, что он создал модель с учетом мультимодальных возможностей. Это указывает на то, что будущее ИИ может быть более универсальным, чем инструменты, которые у нас есть сегодня. Компания также объединила свои команды по ИИ в одно рабочее подразделение, теперь названное Google DeepMind.