12 подписчиков
Почему токенизация в LLM создает проблемы?
Любая нейросеть работает по принципу «вы мне токены, я вам информацию». Токены - это части текста или изображений, которые помогают модели обрабатывать письменную речь и решать задачи.
Чаще всего токен не равен слову или слогу. Токен – это нечто нечеткое. Например:
⚫️Пробел может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без него на конце.
⚫️Токенайзеры восприимчивы к регистру. "Привет” и “ПРИВЕТ" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.
⚫️Одни языки лучше поддаются токенизации, другие хуже. Из-за этого перформанс моделей на каких-то языках гораздо ниже, а цена и время инференса иногда намного больше.
⚫️Из-за токенов у моделей проблемы с математикой: токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 отвечает, что 7735 больше чем 7926.
Эх, когда-нибудь мы придем к совершенному инструменту искусственного интеллекта 📺
#Токены #GPT #LLM
Около минуты
30 августа 2024