9.4 Закон Ципфа
Закон Ципфа: просто о сложном
Закон Ципфа — это правило, по которому редкие вещи встречаются намного реже, чем популярные. Если отсортировать что-то по популярности, то второй по популярности объект встречается примерно в 2 раза реже, чем первый, третий — в 3 раза реже и так далее. Лингвист Джордж Ципф заметил, что самые распространенные слова в языке используются гораздо чаще, чем остальные. Например, слово «the» в английском встречается намного чаще, чем «elephant» или «universe». Позже оказалось, что такое же распределение есть в городах, богатстве, интернете и многом другом...
🎯Математика для Data Scientist’а, часть 2: Закон Ципфа
Эта эмпирическая закономерность распределения частоты слов естественного языка часто используется в количественной лингвистике и NLP-задачах. Закон Ципфа гласит: если все слова в большом тексте упорядочить по убыванию частоты их использования, то частота n-го слова в этом списке будет обратно пропорциональна его порядковому номеру n (рангу). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т.д. Впервые закономерность была открыта французским стенографистом Жан-Батистом Эсту в 1908 году...