В этой статье я хочу поделиться готовыми функциями на Python для приведения грамматических форм списка слов к базовому виду (стемминг) в соответствии с ранее описанными рекомендациями.
Вспомним, что мы...
Стемминг – способ подготовки текста для использования в Модели (Model) Машинного обучения (ML), сокращение слов до своих грамматических основ (основа слова "Африки" – "Африк"). Основа слова – стем, не обязательно совпадает с корнем, он может включать и суффиксы. Это неизменяемая при склонении часть. Алгоритмы стемминга обычно основаны на правилах: слово проходит через ряд условных предложений, которые определяют, как его сократить. Например, существует правило суффиксов: в английском языке «-ed» и «-ing» отрезают, чтобы сопоставить "cooking" и "cooked" с одной и той же основой "cook"...