Лемматизация – объединение слов с одним и тем же корнем или леммой, но с разными склонениями или производными значения для дальнейшего анализа как элемента. Цель состоит в том, чтобы выявить присутствие слова в любой из его форм в Текстовом блоке (Corpus) и, например, определить частоту его появления. Например, лемматизировать слова «кошки», «кошек» и «кошка» означает привести к именительному падежу все эти слова и получить «кошка». Лемматизация активно используется в области Обработки естественного языка (NLP). Лемматизация и стемминг В отличие от лемматизации, Стемминг (Stemming) выделяет грамматическую основу текста. В случае с "кошкой" он отбрасывает окончание "ой" и генерирует стем "кошк". Практическое применение Одним из широко известных приложений лемматизации является поиск информации для поисковых систем. Лемматизация позволяет системам сопоставлять документы по темам, позволяя поисковым системам отображать релевантные результаты и даже расширять их, чтобы включить другую инфо
Lemmatization в Машинном обучении простыми словами
21 ноября 202121 ноя 2021
284
2 мин