Найти тему
12 подписчиков

Почему токенизация в LLM создает проблемы?


Любая нейросеть работает по принципу «вы мне токены, я вам информацию». Токены - это части текста или изображений, которые помогают модели обрабатывать письменную речь и решать задачи.

Чаще всего токен не равен слову или слогу. Токен – это нечто нечеткое. Например:

⚫️Пробел может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без него на конце.

⚫️Токенайзеры восприимчивы к регистру. "Привет” и “ПРИВЕТ" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

⚫️Одни языки лучше поддаются токенизации, другие хуже. Из-за этого перформанс моделей на каких-то языках гораздо ниже, а цена и время инференса иногда намного больше.

⚫️Из-за токенов у моделей проблемы с математикой: токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 отвечает, что 7735 больше чем 7926.

Эх, когда-нибудь мы придем к совершенному инструменту искусственного интеллекта 📺

#Токены #GPT #LLM
Почему токенизация в LLM создает проблемы?  Любая нейросеть работает по принципу «вы мне токены, я вам информацию».
Около минуты