10,2 тыс подписчиков
💫 Карпатый объявил о своем уходе из OpenAI 4 дня назад.
Сегодня он выпустил реализацию алгоритма Byte Pair Encoding, лежащего в основе GPT и большинства LLM.
Byte Pair Encoding: "Минимальный, чистый, код для алгоритма Byte Pair Encoding (BPE), обычно используемого в токенизации LLM".
Самое интересное? Он написан в 70 строках на чистом питоне. (На самом деле это 37 строк кода, если убрать комментарии и пустые строки.)
Около минуты
19 февраля 2024