948 подписчиков
За шумом с Sora остался без внимания уход из OpenAI Андрея Карпаты.
Карпаты ушёл без шума и пыли. Скандалов и интриг (как с увольнением Альтмана) не предвидится.
Планирует заняться личными ML проектами. 🛠
На днях он выпустил новую статью про минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.
Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.
Идея BPE очень простая:
1. Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2. Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i)
2. Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.
По похожему принципу работают архиваторы и даже .mp3 формат.
Был бы я представителем венчурных фондов, следил бы за ним очень внимательно. 👀
Похоже скоро взойдёт новая звезда на рынке знаковых ML стартапов.
Не может инженер такого уровня, созидавший рядом с Маском и Альтманом не явить миру новое чудо✨
Ссылка на гитхаб Andrew Karpaty
Принцип работы BPE (пост+видео) из NLP курса на HuggingFace
Ютуб канал, где простым языком о нейронках.
1 минута
20 февраля