Стемминг – способ подготовки текста для использования в Модели (Model) Машинного обучения (ML), сокращение слов до своих грамматических основ (основа слова "Африки" – "Африк"). Основа слова – стем, не обязательно совпадает с корнем, он может включать и суффиксы. Это неизменяемая при склонении часть. Алгоритмы стемминга обычно основаны на правилах: слово проходит через ряд условных предложений, которые определяют, как его сократить. Например, существует правило суффиксов: в английском языке «-ed» и «-ing» отрезают, чтобы сопоставить "cooking" и "cooked" с одной и той же основой "cook". Перестемминг и недостемминг Поскольку стемминг обычно основан на эвристике, он далек от совершенства. На самом деле он "страдает" от двух проблем: пере- и недостемминга. Перестемминг (англ. overstemming) происходит, когда слишком большая часть слова обрезается. Это может привести к бессмысленным стемам, где значение слова потеряно. Или же к тому, что совершенно неродственные слова будут приведены к одной
Stemming в Машинном обучении простыми словами
20 февраля 202220 фев 2022
298
3 мин