15.02.2024 Google анонсировал выпуск Gemini 1.5 – обновленной версии многофункциональной нейросетевой модели Gemini.
Изначально Gemini была представлена в декабре 2023 года, как "самая способная и универсальная на сегодняшний день модель" от Google. Она была оптимизирована для работы с текстовыми, графическими, аудио и видео данными.
Теперь же компания анонсирует Gemini 1.5, которая получила архитектурные улучшения, расширенные контекстные возможности (до 1 млн токенов) и увеличенную производительность.
Давайте разберем подробнее, что из себя представляет новая Gemini 1.5 и какие преимущества она несет.
Одним из ключевых нововведений в Gemini 1.5 стала архитектура Мixture of Experts (MoE). В отличие от предыдущих версий, где использовалась одна большая нейронная сеть, в MoE модель разбита на меньшие подсети-«эксперты».
В зависимости от типа данных на входе, активируются только соответствующие части нейросети. Это повышает общую эффективность и скорость работы.
Благодаря оптимизации архитектуры, Gemini 1.5 обучается решать сложные задачи быстрее и качественнее предыдущих моделей. При этом она менее требовательна к вычислительным мощностям.
Главное нововведение модели - это значительно расширенное окно контекста, до 1 млн токенов. Это позволяет Gemini 1.5 обрабатывать гораздо большие объемы данных за один запрос.
К примеру, теперь она может проанализировать текст объемом 700 000 слов, 1 час видео, 11 часов аудио или 30 000 строк кода.
Благодаря этому, модель стала эффективнее выполнять задачи, требующие глубокого понимания контекста и связей между разными данными.
В числе прочего, Gemini 1.5 теперь умеет:
- Анализировать сотни тысяч текстовых документов на предмет взаимосвязей
- "Смотреть" часы видео и выделять ключевые события
- Обрабатывать десятки тысяч строк кода и генерировать документацию
Кроме того, Gemini 1.5 показала высокие результаты в сравнительных тестах производительности, превзойдя Gemini 1.0 по 87% бенчмарков для оценки языковых моделей.
В дальнейшем модель будет интегрирована в множество продуктов и сервисов Google:
- Поиск (ускорение поисковых запросов)
- [Gemini chatbot](https://gemini.google.com) (улучшенное понимание контекста)
- Pixel (новые функции смартфона на базе ИИ)
- Notebook ML (создание собственных баз знаний - тема нашей будущей статьи)
Таким образом, выход Gemini 1.5 станет важной вехой для всей экосистемы искусственного интеллекта от Google. Модель заметно расширит горизонты применения ИИ в самых разных сферах.
Краткая история создания Google Gemini:
2023 год:
- 6 февраля: Google представляет чат-бот Bard, основанный на языковой модели LaMDA.
- 8 февраля: Презентация Bard в Париже омрачается ошибкой в ответе на вопрос, что приводит к падению акций Google.
- 21 марта: Bard становится доступен избранным пользователям в США и Великобритании.
- Апрель: Bard получает возможность писать, отлаживать и объяснять код.
- Май: Bard становится доступен в 180 странах мира, но не в СНГ и ЕС.
- Декабрь: Bard переходит на новую языковую модель Gemini Pro, которая умеет создавать изображения.
2024 год:
- Февраль: Google переименовывает Bard в Gemini.
Интересные факты:
- Gemini может генерировать текст на 46 языках.
- Gemini может писать код на 20 языках программирования.
- Gemini умеет создавать изображения на основе текстовых описаний.