Недавно компания Google объявила, что количество токенов Gemini 1.5 Pro увеличится с 1 миллиона до 2 миллионов. Звучит впечатляюще, но что такое токен?
По своей сути, даже чат-ботам нужна помощь в обработке получаемого текста, чтобы они могли понимать концепции и общаться с вами по-человечески. Для этого в генеративном ИИ используется система токенов, которая разбивает данные на части, чтобы они легче усваивались моделями ИИ.
Что такое токен ИИ?
Токен ИИ - это наименьшая единица, на которую может быть разбито слово или фраза при обработке большой языковой моделью (LLM). Токены - это слова, знаки препинания или подслова, которые позволяют моделям эффективно анализировать и интерпретировать текст и впоследствии генерировать контент по принципу единицы. Это похоже на то, как компьютер преобразует данные в нули и единицы Юникода для облегчения обработки. Токены позволяют модели определить закономерность или взаимосвязь между словами и фразами, чтобы она могла предсказать будущие термины и ответить в контексте вашей подсказки.
Когда вы вводите запрос, фраза и слова слишком длинны, чтобы чатбот мог интерпретировать их как есть - они должны быть разбиты на более мелкие части, прежде чем LLM сможет обработать запрос. Они преобразуются в лексемы, затем запрос отправляется, анализируется, и вам возвращается ответ.
Процесс превращения текста в токены называется токенизацией. Существует множество методов токенизации, которые могут различаться по вариантам, включая указания словаря, словосочетания, язык и т. д. Например, метод токенизации на основе пробелов разделяет слова на основе пробелов между ними. Фраза «На улице идет дождь» будет разбита на лексемы 'It's', 'raining', 'outside'.
Как работают лексемы ИИ?
Общее преобразование лексем, принятое в генеративном пространстве ИИ, означает, что одна лексема равна примерно четырем символам в английском языке - или 3/4 слова, а 100 лексем равны примерно 75 словам. Согласно другим преобразованиям, одно - два предложения равны примерно 30 лексемам, один абзац равен примерно 100 лексемам, а 1 500 слов равны примерно 2 048 лексемам.
Независимо от того, являетесь ли вы обычным пользователем, разработчиком или предприятием, используемая вами программа искусственного интеллекта использует токены для выполнения своих задач. Как только вы начинаете платить за услуги генеративного ИИ, вы платите за токены, чтобы поддерживать сервис на оптимальном уровне.
Большинство брендов, использующих генеративный ИИ, также имеют основные правила, касающиеся функционирования токенов в их моделях ИИ. Многие компании имеют ограничения на количество токенов, которые могут быть обработаны за один ход. Если запрос превышает лимит токенов на LLM, инструмент не сможет выполнить запрос за один оборот. Например, если вы введете в GPT с ограничением в 4 096 лексем статью на 10 000 слов для перевода, он не сможет обработать ее полностью и дать подробный ответ, поскольку для такого запроса потребуется не менее 15 000 лексем.
Однако компании быстро расширяют возможности своих LLM, увеличивая ограничение на количество токенов в новых версиях. Исследовательская модель BERT от Google имела максимальную длину входных данных в 512 токенов. LLM GPT-3.5 от OpenAI, на котором работает бесплатная версия ChatGPT, имеет максимум 4 096 входных токенов, а LLM GPT-4, на котором работает платная версия ChatGPT, имеет максимум 32 768 входных токенов. Это соответствует примерно 64 000 слов или 50 страницам текста.
Gemini 1.5 Pro от Google, обеспечивающий аудиофункции для фирменной AI Studio, имеет стандартное контекстное окно на 128 000 маркеров. Claude 2.1 LLM имеет ограничение до 200 000 контекстных лексем. Это соответствует примерно 150 000 слов или 500 страницам текста.
Каковы различные типы лексем ИИ?
Существует несколько типов лексем, используемых в генеративном ИИ, которые позволяют LLM определять наименьшие единицы, доступные для анализа. Вот некоторые из основных типов лексем, представляющих интерес для модели ИИ.
- Словесные токены - это слова, которые представляют собой отдельные единицы, такие как «птица», «дом» или «телевизор».
- Токены подслова - это слова, которые можно сократить до более мелких единиц, например, разделить вторник на «вторник» и «день».
- Пунктуационные маркеры занимают место знаков препинания, включая запятые (,), точки (.) и другие.
- Токены чисел занимают место числовых цифр, включая число «10».
Специальные маркеры могут отмечать несколько уникальных инструкций при выполнении запросов и обучающих данных.
В чем преимущества токенов?
У лексем есть несколько преимуществ в области генеративного ИИ. Прежде всего, они служат связующим звеном между человеческим и компьютерным языком при работе с LLM и другими процессами ИИ. Токены помогают моделям обрабатывать большие объемы данных одновременно, что особенно полезно для корпоративных систем, использующих LLM. Компании могут работать с ограничениями на количество токенов, чтобы оптимизировать производительность моделей ИИ. С появлением будущих версий LLM токены позволят моделям иметь больший объем памяти за счет более высоких лимитов или контекстных окон.
Другие преимущества токенов связаны с аспектами обучения LLM. Поскольку они представляют собой небольшие единицы, их можно использовать для оптимизации скорости обработки данных. Благодаря прогностической природе лексем, они лучше понимают концепции и улучшают последовательности с течением времени. Токены помогают внедрять в LLM мультимодальные аспекты, такие как изображения, видео и аудио, наряду с чат-ботами, работающими по принципу «текст в речь».
Токены также имеют некоторые преимущества в плане безопасности данных и экономичности, поскольку их юникод защищает важные данные и сокращает длинный текст до упрощенной версии.
Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!
Вы также можете читать меня в:
- Telegram: https://t.me/gergenshin
- Яндекс Дзен: https://dzen.ru/gergen
- Официальный сайт: https://www-genshin.ru