Бесплатная альтернатива GPT

4 марта 20244 мар 2024

2 мин

15.02.2024 Google анонсировал выпуск Gemini 1.5 – обновленной версии многофункциональной нейросетевой модели Gemini.

Изначально Gemini была представлена в декабре 2023 года, как "самая способная и универсальная на сегодняшний день модель" от Google. Она была оптимизирована для работы с текстовыми, графическими, аудио и видео данными.

Теперь же компания анонсирует Gemini 1.5, которая получила архитектурные улучшения, расширенные контекстные возможности (до 1 млн токенов) и увеличенную производительность.

Давайте разберем подробнее, что из себя представляет новая Gemini 1.5 и какие преимущества она несет.

Одним из ключевых нововведений в Gemini 1.5 стала архитектура Мixture of Experts (MoE). В отличие от предыдущих версий, где использовалась одна большая нейронная сеть, в MoE модель разбита на меньшие подсети-«эксперты».

В зависимости от типа данных на входе, активируются только соответствующие части нейросети. Это повышает общую эффективность и скорость работы.

Благодаря оптимизации архитектуры, Gemini 1.5 обучается решать сложные задачи быстрее и качественнее предыдущих моделей. При этом она менее требовательна к вычислительным мощностям.

Главное нововведение модели - это значительно расширенное окно контекста, до 1 млн токенов. Это позволяет Gemini 1.5 обрабатывать гораздо большие объемы данных за один запрос.

К примеру, теперь она может проанализировать текст объемом 700 000 слов, 1 час видео, 11 часов аудио или 30 000 строк кода.

Благодаря этому, модель стала эффективнее выполнять задачи, требующие глубокого понимания контекста и связей между разными данными.

В числе прочего, Gemini 1.5 теперь умеет:

- Анализировать сотни тысяч текстовых документов на предмет взаимосвязей

- "Смотреть" часы видео и выделять ключевые события

- Обрабатывать десятки тысяч строк кода и генерировать документацию

Кроме того, Gemini 1.5 показала высокие результаты в сравнительных тестах производительности, превзойдя Gemini 1.0 по 87% бенчмарков для оценки языковых моделей.

В дальнейшем модель будет интегрирована в множество продуктов и сервисов Google:

- Поиск (ускорение поисковых запросов)

- [Gemini chatbot](https://gemini.google.com) (улучшенное понимание контекста)

- Pixel (новые функции смартфона на базе ИИ)

- Notebook ML (создание собственных баз знаний - тема нашей будущей статьи)

Таким образом, выход Gemini 1.5 станет важной вехой для всей экосистемы искусственного интеллекта от Google. Модель заметно расширит горизонты применения ИИ в самых разных сферах.

Краткая история создания Google Gemini:

2023 год:

- 6 февраля: Google представляет чат-бот Bard, основанный на языковой модели LaMDA.

- 8 февраля: Презентация Bard в Париже омрачается ошибкой в ответе на вопрос, что приводит к падению акций Google.

- 21 марта: Bard становится доступен избранным пользователям в США и Великобритании.

- Апрель: Bard получает возможность писать, отлаживать и объяснять код.

- Май: Bard становится доступен в 180 странах мира, но не в СНГ и ЕС.

- Декабрь: Bard переходит на новую языковую модель Gemini Pro, которая умеет создавать изображения.

2024 год:

- Февраль: Google переименовывает Bard в Gemini.

Интересные факты:

- Gemini может генерировать текст на 46 языках.