2323 подписчика

306. Принцип Парето 80/20, или сколько необходимо выучить слов иностранного языка

3 февраля 20213 фев 2021

6 мин

Вынесенный в заголовок вопрос интересует многих. За рамками статьи оставляем вопрос о грамматике и способности аудировать, т.е. узнавать знакомые слова в потоке речи. Вопрос стоит более узко - предположим, вы выучили 10 слов, и благодаря знанию грамматики оказываетесь в состоянии узнавать слово во всех его словоформах (косвенных формах слова, получаемых путем спряжения либо склонения исходного слова в словарной форме). Если слова окажутся распространенными, а не узкоспециальными терминами какой-либо предметной области, вы наверняка встретите их на странице любого текста. Можно даже, для интереса, подсчитать число всех слов на странице (обычно 2-3 сотни слов), вычеркивая все знакомые слова (в том числе и в случае, если они встречаются во второй, третий и т.д. раз). Вы удивитесь, но вычеркнутыми могут оказаться до четверти слов на странице. Но при ином подборе десятка слов вы можете не встретить ни одного знакомого слова. Отсюда возникает мысль подбора "самых важных слов", чтобы миним

Вынесенный в заголовок вопрос интересует многих. За рамками статьи оставляем вопрос о грамматике и способности аудировать, т.е. узнавать знакомые слова в потоке речи.

Вопрос стоит более узко - предположим, вы выучили 10 слов, и благодаря знанию грамматики оказываетесь в состоянии узнавать слово во всех его словоформах (косвенных формах слова, получаемых путем спряжения либо склонения исходного слова в словарной форме). Если слова окажутся распространенными, а не узкоспециальными терминами какой-либо предметной области, вы наверняка встретите их на странице любого текста.

Можно даже, для интереса, подсчитать число всех слов на странице (обычно 2-3 сотни слов), вычеркивая все знакомые слова (в том числе и в случае, если они встречаются во второй, третий и т.д. раз). Вы удивитесь, но вычеркнутыми могут оказаться до четверти слов на странице.

Но при ином подборе десятка слов вы можете не встретить ни одного знакомого слова. Отсюда возникает мысль подбора "самых важных слов", чтобы минимизировать усилия по запоминанию слов, одновременно максимизировав процент покрытия текста выученными словами.

Американский лингвист и экономист Джордж Ципф занимался изучением статистических закономерностей в естественных языках. Ципф установил, подсчитав (вручную, не существовало ни оцифрованных текстов, ни компьютеров), частоту встречаемости слов английского языка в естественных текстах.

Слова Ципф сортировал по популярности, разделив их на разряды (ранги). Самое частое слово (слово с рангом 1) встречалось в текстах в среднем в 10% всех словоупотреблений, слово с рангом 2 в два раза реже (5%), слово с рангом 3 в три раза реже, и т.п.

Так был сформулирован закон Ципфа:

F = 0,1/i

Частота встречаемости слова F (в долях единицы) обратно пропорциональна его рангу i (номеру в упорядоченном по частоте списке слов).

Долю покрытия текста словами P можно вычислить, просуммировав первые N слов частотного списка слов (мы предполагаем, что слова изучаются строго в порядке следования их по рангам, и N - наш словарный запас).

P = 0,1/1 + 0,1/2 + 0,1/3 + ... 0,1/N

Где-то мы подобное уже видели. Можно записать выражение иначе:

P = 0,1/(1/1 + 1/2 + 1/3 + ... 1/N)

Ба, да мы же совсем недавно статью про первобытное мышление и логарифмы писали, и там именно подобное выражение встречалось. Удивительного в том мало: если корни логарифмического мышления или обработки информации по логарифмическому закону лежат в психологии первобытных людей, и еще глубже - в физиологии представителей животного мира, современные люди (не обязательно писатели или ученые, но и авторы школьных сочинений или любовных писем) подсознательно генерируют тексты, следуя закону Ципфа. Знать закон Ципфа при этом совершенно необязательно.

Ниже график зависимости частоты слова от его ранга. Масштаб по оси рангов логарифмический, при линейном масштабе график выглядел бы совершенно не показательно.

А вот график покрытия текста первыми n словами выглядит особо хорошо и показательно именно при линейном масштабе по оси рангов.

Именно то, что нам надо - небольшое число слов покрывает значительную часть текста. Так, если следовать строго закону Ципфа, и держать в голове цифру 80% (считаем, что "узнав" 80% всех слов, мы сможем разобраться в тематике текста и понять основное его содержание), то достаточно выучить 1.674 слова. Если учить в день по 30 слов, на все-про-все хватит 2 месяцев. Правда, для такого темпа необходимо иметь особо подобранные тексты (искусственные или адаптированные), и соответствующее видеосопровождение.

Можно читать и естественные (неадаптированные) тесты, с расчетом на то, что запоминаться будут именно наиболее часто встречающиеся слова.

Дальше - хуже. 90% текста покрываются 4.549 словами, т.е. чтобы к 80% "узнаваемых" слов добавить всего 10%, придется выучить почти вдвое больше слов, чем вы уже знаете. И, наконец, зная 7.501 слово, вы добавите к 90% еще 5%.

Кстати, здесь проявляется принцип Парето – 20% усилий дают 80% результата, а чтобы получить недостающие 20% результата, придется приложить недостающие 80% усилий. Если считать 1674 слова 20% "усилий", 100% усилий сведутся к 1674 х 5 = 8370 слов. Выпускник вуза знает всего 8.000 слов своего родного языка, а выпускник средней школы и того меньше - 1.500-4.000. Согласитесь, знать свыше 8 тысяч иностранных слов – хороший предел, который можно счесть за 100%.

Сколько же надо знать слов, чтобы читать тексты, не встречая в нем ни одного незнакомого слова? Здравый смысл и опыт показывают, что очень много, в пределе - весь словарный запас языка. Но по модели Ципфа 12.337-е слово полностью завершает словарь, поскольку данное количество слов покрывает текст на все 100%.

Разумеется, модель языка "по Ципфу" приблизительна, и выявилось это сразу после опубликования Ципфом своих результатов. Впоследствии выяснилось, что закон Ципфа, выявленный автором на английских текстах, не вполне выявляется на текстах других языков, и в закон стал вноситься ряд поправок.

С поправками французского и американского математика Бенуа Мандельброта (автора фрактальной геометрии), закон стал называться законом Ципфа-Мандельброта, и частота слов с начальными рангами стала корректироваться особой константой, зависящей от грамматического строя языка; вдобавок, с ростом рангов частоты могут спадать несколько быстрее или медленнее, чем диктует закон Ципфа, и этот новый параметр отражает стиль автора.

Дальше - больше. Польский исследователь Ежи Ворончак подкорректировал частоты в области очень больших рангов, а советский лингвист В. Кромер обнаружил характерный провал в области средних рангов, названный кратером.

Но как бы точно не описывали современные модификации закона Ципфа распределение частот слов по текстам разной тематики и смешанным текстам, основные выводы остаются неизменными - выучив первую тысячу самых распространенных слов любого иностранного языка, вы будете узнавать около 3/4 слов иностранного текста. Разумеется, 1000 слов должна быть отобрана по текстам интересующей вас тематики - художественной литературы, технических текстов определенной тематики и т.п.

Так какие же это слова? Разумеется, первые слова в списке - служебные слова: предлоги, союзы, вспомогательные глаголы и т.п. Но примерно начиная с 3-го десятка идут самые полноценные знаменательные слова - существительные, глаголы, прилагательные, числительные.

Интересен пример русского языка. Первый частотный словарь русского языка был издан в 1953 году в США, под авторством Иоссельсона, а в 1977 году в Ленинграде/Горьком был создан словарь п/р Л.Н. Засориной. Если словарь Иоссельсона был создан на основе текстов русских пьес, то тематика словаря Засориной была более разнообразной: художественная проза, драма, научная публицистика и газетно-журнальные тексты.

Частотный словарь русского языка Л.Н. Засориной

С 2004 года открыт доступ к электронному онлайн-корпусу русских текстов "Национальный корпус русского языка" (НКРЯ), в котором учтено свше 600 миллионов словоупотребление. Для сравнения, словарь Засориной построен на основе чуть более чем 1 миллиона словоупотреблений.

Согласно Корпусу, наиболее частыми словами русского языка являются (первые 10 слов) и, в, не, на, я, быть, он, с, что, а. Первую сотню завершает слово ничто, первую тысячу - слово быстрый, а десятую тысячу - слово имитировать.

Так что иностранцу, изучающему русский язык, рациональнее всего и выбирать изучаемые слова в порядке их следования в Корпусе.

К настоящему времени для многих иностранных языков в интернете размещены списки наиболее употребительных слов, и параллельно с изучением грамматики полезно время от времени сверяться с ними, включая в свой словарный запас слова. по какой-либо причине упущенные автором учебника или видеокурса.

А в завершение, с выходом за тему статьи, красивый фрактал, создателем теории которых был Бенуа Мандельброт, внесший свой вклад в изучение закона Ципфа.