Эта эмпирическая закономерность распределения частоты слов естественного языка часто используется в количественной лингвистике и NLP-задачах. Закон Ципфа гласит: если все слова в большом тексте упорядочить по убыванию частоты их использования, то частота n-го слова в этом списке будет обратно пропорциональна его порядковому номеру n (рангу). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т.д. Впервые закономерность была открыта французским стенографистом Жан-Батистом Эсту в 1908 году...
Закон Ципфа везде ! Рассмотрим закон Ципфа На примере русского языка.
и, в, не, он, на, я, что, тот, быть, с, а, весь, это, как, она, по, но, они, к, у - это 20 самых распространенных слов в русском языке по порядку и вот классный и интересный факт - если расположить самые популярные слова во всем языке, одной книге или даже в вашем разговоре с друзьями всегда возникает закономерность по которой каждый раз второе слово будет появляться в 2 раза реже первого, третье в 3 раза реже, четвертое в 4 и...