Тихомиров М.М. - Искусственный интеллект - 7. Представление текста, токенизация. Ruadapt
Токенизация: первый шаг к пониманию текста компьютером
Токенизация является одним из важных этапов обработки естественного языка (NLP) и важной областью искусственного интеллекта, этот этап помогает компьютеру разбить текст на отдельные слова или токены. В этой статье мы расскажем, что такое токенизация и почему она важна для NLP. Все начинается с того, что компьютер не может понимать естественный язык так же, как это делает человек. Для компьютера, предложение или текст - это просто набор символов. Поэтому перед тем, как компьютер сможет выполнять...
Токенизация и векторизация: преобразование текста
В современном мире для нас уже привычно общение с нейронными сетями в самых разных сферах. Мы пишем промпт (текст запроса в нейросеть) и получаем ответ. Но вам никогда не было интересно как именно нейронные сети понимают наш “естественный язык”? Очевидно, компьютер не может понять наш язык, так же как и любой другой, кроме цифрового. Таким образом, чтобы достичь “взаимопонимания” с ЭВМ, первым делом необходимо преобразовать текст в численный вид. Первый этап работы с текстом — токенизация. Токенизация преобразует строку из букв и пробелов в последовательность токенов — базовых единиц текста...