Первенство OpenAI на вершине генеративного ИИ может подойти к концу — в среду Google официально представила свою на данный момент самую мощную модель обработки естественного языка под названием Gemini 1.0. По словам главы компании Сундара Пичаи, это "новое поколение ИИ-моделей, вдохновленных тем, как люди понимают и взаимодействуют с окружающим миром".
Еще подростком, программируя ИИ для компьютерных игр, а затем во время работы нейробиологом, пытаясь понять принципы работы мозга, я всегда верил — если нам удастся создать более умные машины, мы сможем использовать их на благо человечества по-настоящему волшебным образом— Пичаи
Gemini — результат тесного сотрудничества подразделений Google DeepMind и Research, обладает всеми преимуществами передовых генеративных ИИ.
Её возможности — эталонное качество практически во всех областях.
Система разрабатывалась изначально как интегрированный мультимодальный ИИ. Многие базовые модели по сути представляют собой группы меньших моделей, "надетых" одна на другую, причем каждая обучена выполнять свою конкретную функцию как часть целого. Этого достаточно для простых задач вроде описания изображений, но не для сложных рассуждений.
Google же обучала Gemini с самого начала на разных модальностях, что позволило ей "естественно понимать и анализировать любые данные намного лучше существующих мультимодальных моделей", пояснил Пичаи. Умение одновременно воспринимать все эти формы данных должно помочь Gemini давать более точные ответы по сложным темам вроде физики.
Gemini также умеет программировать на популярных языках вроде Python, Java, C++ и Go. Google даже использовала специализированную версию Gemini для создания AlphaCode 2 — преемника победившего в прошлогоднем состязании генеративного ИИ. По данным компании, AlphaCode 2 решила вдвое больше задач, чем её предшественница, что ставит её выше 85% участников предыдущего соревнования.
Хотя Google пока не раскрыла число параметров Gemini, компания заявила об операционной гибкости модели и способности работать от крупных дата-центров до локальных мобильных устройств. Для реализации этого Gemini доступна в трёх размерах: Nano, Pro и Ultra.
Сравнение Gemini Ultra с GPT-4:
Nano, как нетрудно догадаться, самая компактная и ориентирована на задачи на устройствах. Pro — следующий шаг, более универсальное решение. В ближайшее время она будет интегрирована во многие существующие сервисы Google, включая Bard.
Начиная со среды, Bard начала использовать специально адаптированную версию Pro с более продвинутым мышлением, планированием и пониманием. Улучшенный Bard будет доступен в тех же 170 странах, и Google планирует расширить охват к концу 2024 года. С приходом Ultra в следующем году появится и Bard Advanced с дополнительным функционалом.
Возможностями Pro также можно будет воспользоваться через API Google AI Studio и Google Cloud Vertex AI. Поиск, Реклама, Chrome и Duet AI в ближайшие месяцы тоже получат интеграцию с Gemini.
Gemini Ultra станет доступна не раньше 2024 года, поскольку требует дополнительного тестирования на безопасность, прежде чем её смогут оценить отдельные клиенты, разработчики, партнёры и эксперты в области этики. Но после выхода Ultra обещает стать невероятно мощным инструментом для развития ИИ.