Найти тему
948 подписчиков

За шумом с Sora остался без внимания уход из OpenAI Андрея Карпаты.


Андрей регулярно выпускает обучающие видео по ML и AI на своем ютуб канале.
Подписывайся, кстати на наш, 🎞там тоже много полезных уроков.

Карпаты ушёл без шума и пыли. Скандалов и интриг (как с увольнением Альтмана) не предвидится.
Планирует заняться личными ML проектами. 🛠

На днях он выпустил новую статью про минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1. Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.

2. Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i)

2. Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.

По похожему принципу работают архиваторы и даже .mp3 формат.

Был бы я представителем венчурных фондов, следил бы за ним очень внимательно. 👀
Похоже скоро взойдёт новая звезда на рынке знаковых ML стартапов.

Не может инженер такого уровня, созидавший рядом с Маском и Альтманом не явить миру новое чудо✨

Ссылка на гитхаб Andrew Karpaty

Принцип работы BPE (пост+видео) из NLP курса на HuggingFace

Ютуб канал, где простым языком о нейронках.

За шумом с Sora остался без внимания уход из OpenAI Андрея Карпаты.  Андрей регулярно выпускает обучающие видео по ML и AI на своем ютуб канале.
1 минута