На прошлой неделе компания Google представила Gemini - свой новый бренд искусственного интеллекта и открыла доступ пользователям к моделям различных размеров и уровней сложности. ИИ-модель Gemini 1.0 Pro, относящаяся к среднему уровню, уже устарела. Google заявила, что ей на замену пришла Gemini 1.5 Pro, которая может обрабатывать намного больше данных, чем любая другая современная ИИ-модель. Это ставит ее в один ряд с самой большой моделью Google Ultra. Правда, увидеть, на что способна усовершенствованная Pro-модель, смогут лишь несколько тестировщиков.
Недавно разработчики Google опубликовали статью, в которой подробно описывается метод устранения узкого места памяти в кластерах графических процессоров. Раньше графические процессоры, на которых работал генеративный искусственный интеллект, обрабатывали щедрую порцию данных, а затем пересчитывали их, когда приходило время передать их другому ускорителю искусственного интеллекта. Новый подход позволяет каждому вычислительному блоку одновременно отправлять и получать похожие данные от других частей кластера. Это улучшает восприятие модели, давая ей возможность одновременно обрабатывать больше информации. Именно это привело к такому быстрому обновлению до версии 1.5.
Один из самых эффективных способов измерить сложность и, теоретически, полезность модели — это сравнить количество токенов, которые она может обработать. Токен — это просто фрагмент данных, разбитый на легко усваиваемые фрагменты — числа, слова или части слов. Gemini 1.0 Pro работал с 32 000 токенами, в то время как у конкурента ChatGPT-4 Turbo их 128 000. Чат-бот Claude от Anthropic был предыдущим лидером с окном фрейма в 200 000 токенов. Gemini 1.5 Pro может работать с 10 миллионами токенов, но обычные пользователи пока не получили доступ к этой версии.
Gemini 1.5 Pro — это мультимодальный искусственный интеллект, а это означает, что вы можете передавать ему текст, изображения или даже видео. Благодаря огромному контекстному окну он может обрабатывать один час видео, 11 часов аудио, 30 000 строк кода или 700 000 слов. В видео выше Google предоставила Gemini 1.5 Pro все 402 страницы стенограммы высадки "Аполлона-11" на Луну (330 000 токенов). Модель может понимать контекст и применять логику для объяснения содержания. Компания заявила, что по возможностям он примерно такой же, как и его самая крупная модель Gemini 1.0 Ultra, но требует меньше ресурсов.
Новая модель сначала будет доступна только для разработчиков и корпоративных клиентов. Стандартная версия Gemini 1.5 Pro, к которой получат доступ обычные пользователи, будет работать только с 128 000 токенов. В данный момент тестируются и более мощные модели с 1 миллионом токенов, но пока с небольшой группой разработчиков и ученых.
Google заявила, что для новой Gemini Pro появятся модели подписки, как только будут решены все проблемы, но о ценах пока ничего не известно. Это может сигнализировать о серьезных изменениях в распространении нового продукта. Сейчас пользователи имеют бесплатный доступ к модели Gemini 1.0 Pro, а доступ к версии Ultra стоит 20 долларов. Похоже, что эра бесплатного доступа к ИИ-моделям подходит к концу, даже если вам не нужна опция Ultra.