Найти тему
Герман Геншин

Почему Gemini 1.5 – это контекст на один миллион токенов, который изменит игру

Оглавление

Google Gemini 1.5 теперь поставляется с массивным контекстным окном на миллион токенов, что превосходит его прямых конкурентов в лице ChatGPT, Claude и других ИИ-чатботов.

Это звучит как масштабное обновление и может выделить Gemini на фоне других. Пока сложно осознать все его масштабы, но огромное контекстное окно Gemini может стать переломным моментом в игре.

Что такое контекстное окно?

Отвечая на ваши запросы, например, объясняя концепцию или резюмируя текст, модели ИИ имеют ограничение на объем данных, которые они могут учитывать при создании ответа. Ограничение на объем текста, который они могут рассмотреть, называется контекстным окном.

Вот другой способ взглянуть на это. Допустим, вы идете в продуктовый магазин за продуктами без списка продуктов. Ограничение на количество продуктов, которое вы можете запомнить при покупке, - это ваше контекстное окно. Чем больше продуктов вы можете вспомнить, тем выше шансы не испортить планы покупок. Аналогично, чем больше контекстное окно модели искусственного интеллекта, тем выше вероятность того, что модель запомнит все, что нужно, чтобы предоставить вам наилучшие результаты.

На момент написания статьи 200-килобайтное контекстное окно в Anthropic's Claude 2.1 является самым большим контекстным окном среди всех общедоступных моделей ИИ. За ним следует GPT-4 Turbo со 128-килобайтным контекстным окном. Google Gemini 1.5 имеет контекстное окно размером в один миллион, что в четыре раза больше, чем у любой другой модели на рынке. Это приводит к большому вопросу: что такого в контекстном окне на миллион токенов?

Почему контекстное окно Gemini 1.5 - это большая удача

-2

Если говорить о контекстном окне Claude AI в 200 тыс. жетонов, то это означает, что он может переварить книгу объемом около 150 тыс. слов и дать на нее ответы. Это очень много. Но Gemini 1.5 от Google сможет переварить 700 000 слов за раз!

Когда вы отправляете большой текстовый блок в чат-боты с искусственным интеллектом, такие как ChatGPT или Gemini, он пытается переварить как можно больше текста, но то, сколько он сможет переварить, зависит от его контекстного окна. Поэтому, если в модели, которая может обрабатывать только 28 тыс. слов, есть разговор на 100 тыс. слов, а затем вы начинаете задавать вопросы, которые требуют от нее полного знания всего разговора на 100 тыс. слов, вы настраиваете ее на неудачу.

Представьте, что вы посмотрели всего 20 минут из часового фильма, но вас попросили объяснить весь фильм. Насколько хороши будут ваши результаты? Вы либо откажетесь отвечать, либо просто выдумаете что-то, а это именно то, что будет делать ИИ-чатбот, что приведет к галлюцинациям ИИ.

Если вы думаете, что вам никогда не приходилось вводить в чатбота 100 тысяч слов, это еще не все. Контекстное окно выходит за рамки только текста, который вы скармливаете модели ИИ в одной подсказке. Модели ИИ учитывают весь разговор, который вы вели во время чата, чтобы их ответы были максимально релевантными.

Поэтому, даже если вы не скармливаете ей книгу из 100 тысяч слов, ваши разговоры в чате и ответы, которые она дает, все это добавляется к расчету контекстного окна. Интересно, почему ChatGPT или Gemini от Google забывает о том, что вы говорили ему ранее в разговоре? Скорее всего, у него закончилось место в контекстном окне, и он начал его забывать.

Увеличение контекстного окна особенно важно для задач, требующих глубокого понимания контекста, таких как резюмирование длинных статей, ответы на сложные вопросы или поддержание связного повествования в сгенерированном тексте. Хотите написать роман объемом 50 тыс. слов с последовательным повествованием? Хотите модель, которая сможет "смотреть" и отвечать на вопросы по часовому видеофайлу? Вам нужно большее контекстное окно!

Одним словом, увеличенное контекстное окно Gemini 1.5 может значительно улучшить работу ее модели ИИ, уменьшив галлюцинации и значительно повысив точность и способность лучше следовать инструкциям.

Оправдает ли Gemini 1.5 ожидания?

-3

Если все пойдет по плану, Gemini 1.5 потенциально может превзойти лучшие модели искусственного интеллекта на рынке. Однако, учитывая многочисленные неудачи Google в создании стабильной модели ИИ, следует проявить осторожность. Увеличение контекстного окна модели само по себе не делает ее автоматически лучше.

Я использую контекстное окно 200k в Claude 2.1 в течение нескольких месяцев с момента его выхода, и мне ясно одно - более широкое контекстное окно действительно может улучшить чувствительность к контексту, но проблемы с производительностью основной модели могут сделать более широкий контекст проблемой самой по себе.

Станет ли Google Gemini 1.5 революционным решением? В настоящее время социальные сети наполнены восторженными отзывами о Gemini 1.5 от пользователей, получивших ранний доступ. Однако большинство 5-звездочных отзывов связано с поспешными или упрощенными вариантами использования. Хорошим местом для проверки того, как Gemini 1.5 будет работать в естественных условиях, является сайт GoogleТехнический отчет Gemini 1.5 [PDF]. В отчете показано, что даже во время "контролируемого тестирования" модель не смогла получить все мельчайшие детали документов в пределах размера своего контекстного окна.

Контекстное окно размером в миллион жетонов - это действительно впечатляющее техническое достижение, но без возможности надежного извлечения деталей документа большее контекстное окно не имеет практической ценности и даже может стать причиной снижения точности и галлюцинаций.

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Также вы можете прочитать меня здесь: