Исключительную важность для обработки текста представляет приведение списка однородных слов в разных грамматических формах к одной - базовой. Это процедура называет стеммингом, и здесь я расскажу как ее осуществлять применительно к русскому языку...
Разбор слова по составу - это очень просто, элементарщина. Частей слова ведь всего 5 (даже почти 4): приставка, корень, суффикс, окончание. А всё вместе, кроме окончания - это основа.
Чего тут сложного, казалось бы...