🤖 Нейросеть не понимает слов. Но и мы — тоже. Когда я узнал, что ChatGPT не понимает слов, у меня случился внутренний щелчок. Он видит только токены — цифровые значения наиболее частых сочетаний байтов, оставшихся от обработки всего текста с интернета. Собираются все ссылки с интернета - фильтруются и с них вытаскивают текст в огромное полотно - чтобы сократить эту писанину каждый символ становится нулями и единицами - затем их объединяют по 8 в биты - затем в байты - а уже затем частые объединения байтов в Токены 5000 символов текста - в 40000 битов - в 5000 бит и в 100277 токенов для Gpt 4 (в два раза больше у 4о) И разница: “Hello world” — 2 токена. “Привет мир” — 5 токенов. (и больше не удивляемся в разнице выдачи) А затем берутся некоторые количества контекста (совокупностей токенов) и прогоняется через все данные для выставления значения параметров - чисел вероятности встретить следующий токен. Фраза: “Я ем в…” — и он перебирает вероятности: в кафе, в машине, в одиночестве