Спойлер: легче, чем написание этих статей.
Сначала программа готовит текст к обработке. На этом этапе удаляются числа, знаки препинания, стоп-слова. Все слова приводятся в исходную форму. На втором этапе слова заменяются на целые числа. Третий этап - выделение шинглов, последовательностей слов из текста (например, сочетаний из трёх слов) и их нумерация Четвёртый этап - сортировка полученных чисел (упорядочивание по возрастанию). Финальный этап - поиск заимствований. Программа ищет полученные числа в документах, которые есть в базе, и ранжирует идентификаторы этих документов по количеству совпадений. В этот момент люди видят источники и процент заимствований.