70 прочтений · 2 года назад
N-gram в Машинном обучении простыми словами
N-грамма — это последовательность из n слов, где n — дискретное число, которое может принимать значения от 1 до бесконечности. Например, слово «сыр» — это 1-грамма (униграмма). Сочетание «вкус сыра» состоит из двух слов, то есть является биграммой. Точно так же фраза «со вкусом сыра» состоит из трех слов и является триграммой. N-граммы широко применяются для упорядочивания текстовых данных в преддверии создания Модели (Model) Машинного обучения (ML) Проблема с моделированием текста заключается в...
24 прочтения · 3 года назад
Управляем потоками слов и предложений с Python
Для моделей машинного обучения текст необходимо представлять в виде потоков единиц информации, например, слов и их сочетаний (n-gramm). Разберемся, как это дело организовать. В одной из прошлых статей мы научились считывать корпус размеченных текстов с Python...