Грустное выражение лица копирайтерши на заглавной картинке можно понять, особенно если она видит на экране ноутбука содержание картинки.
Классическая тошнота
Ошибка на ошибке, притом ошибки настолько распространенные, что стали нормой. Указано, что классическая частота должна быть от 2,7% до 7%. Но классическая частота не измеряется в процентах, классическая частота измеряется в безразмерных единицах. Вот определение от биржи Адвего:
Классическая тошнота определяется по самому частотному слову — как квадратный корень из количества его вхождений.
При этом не делается никаких упоминаний о размере текста. Количество вхождений самого частотного слова обычно составляет определенный процент от длины текста в словах (это регулируется законом Ципфа, о котором, при всем желании, здесь нет возможности поговорить).
Тем самым, чем длиннее текст, тем больше число вхождений самого частотного слова, соответственно больше и классическая тошнота. Тогда какой прок регламентировать ее значение? Обычно с целью продвижения текста поисковыми машинами (алгоритмы работы которых тщательно скрываются) регламентируется частота самого частотного слова, порядка 2,5-3%.
При средней длине русского слова 7 букв текст длиной 2.000 знаков будет содержать 286 слов, самое частое слово встретится 9 раз, классическая тошнота окажется равной 3. Для текста длиной 10.000 знаков нормальной окажется классическая тошнота 6-7.
Не отсюда ли сакраментальные указанные на картинке пределы 2,7-7? Как уже было сказано, проценты здесь лишние. А длина текста от 2 до 10 тысяч знаков - обычный размер интернет-текста. Но классическая тошнота 7 для текста 2.000 знаков - заведомо переспам (частота слова 17%), а классическая тошнота 2,7 для текста в 10.000 знаков дает частоту слова 0,5%. Вменяемому тексту это никак соответствовать не может.
Знают это на Адвего? Безусловно. Еще одна цитата.
Важно! Максимально допустимое значение классической тошноты зависит от объема текста — для 20 000 знаков тошнота, равная 5, будет нормальной, а для 1000 знаков — слишком высокой.
Только вот доверчивый пользователь (а это, как правило, заказчик на бирже, более никого этот показатель не интересует) вводится в заблуждение. Если тошнота 5 для текста 1.000 знаков заведомо переспам (слово 17%), то для текста 20.000 слово 0,9%. Такого не бывает, значение занижено в 3 раза относительно приемлемого, а пользователя приглашают верить в "нормальность" этого значения.
При этом само понятие тошноты – местное изобретение, нигде в мире им не пользуются. Есть понятие keyword density = плотность ключевых слов, но это не классическая тошнота, а частота ключевого слова в процентах.
Собственно, статья не о классической частоте, понятии совершенно бесполезном, а об академической частоте. А вот это уже интереснее.
Академическая тошнота
Цитата:
Академическая тошнота определяется как отношение самых частотных и значимых слов по специальной формуле. Нормальное значение — в пределах 5-15%. По тошноте текста можно судить о натуральности текста и его SEO-оптимизации под поисковые запросы. Высокий показатель тошноты онлайн для поисковиков является плохим знаком.
И все. Формула вычисления академической тошноты не приводится, вилка указана самая широкая, которую пользователи из принципа сделать лутше лутшего сужают до 6-9%. Вот и заглавная картинка грозно предупреждает: не больше 7%.
А что касается формулы расчета, то существует и такое мнение, ниже цитата: Вы нигде не найдете настоящую формулу, есть только догадки людей, которые сами попытались ее вывести. Но они все неверны (хотя доля истины в них есть).
А без формулы все благие рассуждения на тему "понизить академическую тошноту" бесполезны. Но таки приведем еще одну цитату:
Прежде необходимо рассекретить секретную формулу. Проблемы ведь нет – АТ считается на сайте сервиса для загруженного текста, и несколько минут баловства с вводимыми текстами, где слова корова, собака, кошка, курица и утка вводятся в нужных количествах (от 1 до 4), после чего анализируется возвращаемая сервисом АТ, позволяют выявить формулу академической тошноты:
где F1, F2 и т.д. – количество вхождений самого частого слова, второго по частоте вхождений слова и т.п., вплоть до последнего слова Fn, где n - число разных слов, без учета стоп-слов и слов, встречающихся всего 1 раз (т.н. гапаксов). Чем больше в тексте доля гапаксов, тем текст богаче.
Fобщ – общее число слов в тексте, без стоп-слов. Распространяться на тему, что такое стоп-слова, не стоит, достаточно цитаты:
Существует категория слов, удаление которых из текста не только не нарушает его смысла, а, даже наоборот, делает более понятным, простым для восприятия. Их и называют стоп-словами.
Глупейший бред, уничтожающий язык, все его смысловое разнообразие. Текст без стоп-слов – текст для людей с клиповым сознанием.
Академическая тошнота имеет геометрическое обоснование и вычисляется путем математической обработки частотного словаря текста без стоп-слов. Каждое слово представляется вектором в пространстве, с началом в начале координат, направленным по некоторой оси, и длиной, равной числу употреблений слова в тексте.
Алгоритм advego требует ортогональности всех осей, а тем самым размещения всех слов-векторов в многомерном пространстве на перпендикулярных одна к другой осях. Академическая тошнота текста по advego определяется по длине вектора, равного сумме всех представляющих слова векторов, которая определяется по многомерному аналогу теоремы Пифагора (всем известной по школьному примеру Теоремы Пифагора на плоскости, в 2-мерном пространстве).
Еще проще представить сложение векторов как диагональ многомерного прямоугольного параллелепипеда со сторонами, равными числу вхождений учитываемых слов в текст.
Чтобы сделать показатель независящим от длины текста, вычисленная длина результирующего вектора делится на общее число слов без стоп-слов, и получается приведенная выше формула.
Просчитаем АТ известного стишка Агнии Барто:
Ниже обсчет:
Слов с частотой выше 1 всего 2, это плакать и речка, каждое встречается по 2 раза. Возводим каждое в квадрат, получаем 4, суммируем, получаем 8. Извлекаем квадратный корень, получаем 2,828. Всего слов (без стоп-слов) 12.
100%*2,828/12=23,57%.
В статистике округленное значение 23,6%. Стоп-слова в, не, наш в подсчете не участвовали. Итак, формула работает.
Какова "нормальная" академическая тошнота?
Для начала оценим АТ первой главы повести "Капитанской дочки" А.С. Пушкина. Сервис насчитывает 4,7%. А как обстоят дела с рассказом "Левша" Н.С. Лескова? АТ = 5,5%. Рассказ "Судьба человека" М.А. Шолохова дает АТ = 3,6%. Низкое значение, свидетельство лексического богатства текста.
Выводы
Так каковы же окончательные выводы, чем может помочь знание формулы академической тошноты? Зачастую требуется, по внешним обстоятельствам, понизить АТ текста. Из формулы следует, что поскольку частоты слов входят в числитель формулы в квадрате, понизить АТ можно уменьшением частоты самых частотных слов. Но просто "выкидывать" эти слова из текста нерационально, поскольку при этом уменьшается общее число слов в тексте, а оно входит в знаменатель формулы, что работает в сторону увеличения АТ.
Выгоднее заменить частотное слово на синоним, притом на тот, который в тексте еще не встречался, чтобы слово ушло в гапаксы, тогда числитель уменьшится, а знаменатель останется прежним.
Уменьшать число вхождений слов с незначительной частотой смысла нет, на АТ это скажется мало.
Что же касается классической тошноты, то этот показатель мало того что неинформативный, он еще и попросту вредный, поскольку некоторые пользователи принимают его всерьез и пытаются им руководствоваться.
Вполне достаточно ориентироваться на частоту самого частотного слова, где приемлемым значением считается 2,5-3%.