10,3 тыс подписчиков
🎉 Андрей Карпати снова в деле!
Только что вышел новый двухчасовой туториал по созданию GPT Tokenizer.
В этой лекции вы с нуля построите свой токенизатор, используемый в GPT от OpenAI.
В процессе вы увидите, что многие странные поведения и проблемы LLM на самом деле связаны именно с токенизацией.
В лекции рассматривается ряд этих проблем, и обсуждается, почему именно токенизация виновата в них, и почему в идеале кто-то должен найти способ полностью удалить этот этап.
Около минуты
21 февраля 2024