52 подписчика

Подсчет избыточности текста

23 апреля23 апр

~1 мин

Подсчет избыточности текста. Избыточность текста — это отношение количества уникальных слов к общему числу слов в тексте. Для поэмы А. С. Пушкина «Сказка о царе Салтане» этот показатель составляет примерно 0.44. Это означает, что около 44% слов в поэме уникальны, а остальные повторяются. import re # Замените эту переменную на полный текст поэмы text = """Три девицы под окном Пряли поздно вечерком. «Кабы я была царица, — Говорит одна девица, — То на весь крещеный мир Приготовила б я пир».""" # Приводим текст к нижнему регистру и разбиваем на слова words = re.findall(r'\b\w+\b', text.lower()) # Общее количество слов total_words = len(words) # Количество уникальных слов unique_words = len(set(words)) # Расчёт избыточности redundancy = unique_words / total_words print(f"Избыточность: {redundancy:.2f}") print(f"Всего слов: {total_words}") print(f"Уникальных слов: {unique_words}")

import re

# Замените эту переменную на полный текст поэмы

text = """Три девицы под окном

Пряли поздно вечерком.

«Кабы я была царица, —

Говорит одна девица, —

То на весь крещеный мир

Приготовила б я пир»."""

# Приводим текст к нижнему регистру и разбиваем на слова

words = re.findall(r'\b\w+\b', text.lower())

# Общее количество слов

total_words = len(words)

# Количество уникальных слов

unique_words = len(set(words))

# Расчёт избыточности

redundancy = unique_words / total_words

print(f"Избыточность: {redundancy:.2f}")

print(f"Всего слов: {total_words}")

print(f"Уникальных слов: {unique_words}")