Найти в Дзене
Визуализация

Какой язык богаче словами? Сравниваем русский и еще 5 языков

Сегодня в мире насчитывается более семи тысяч языков, на которых общаются люди. Сегодня я решил сравнить шесть распространенных языков, использованных при написании статей в Википедии, по проценту уникальных слов от их общего количества в соответствующих статьях на этих языках. Вот эти языки: английский, французский, русский, итальянский, испанский и немецкий.

В качестве исходных данных для исследования для каждого языка были взяты статьи из Википедии о странах, в которых соответствующий исследуемый язык был официальным и основным. Решение взять статьи из Википедии о странах было не случайным.

Структура подобной статьи предполагает задействование словарного запаса языка в самых разных сферах. Язык применяется там для описания государственного устройства, географии, флоры и фауны, животного мира, истории и экономики, армии, а также, культуры и искусства.

Каждая статья пишется несколькими людьми, с очень хорошим словарным запасом и может быть отредактирована почти неограниченным кругом лиц. То есть , раскрыть богатство языка в разных темах помогает команда хорошо образованных носителей языка. Под богатством здесь понимается процент уникальных слов на каждую их тысячу в статье. Средний размер статьи в нашем исследовании: 20 - 30 тысяч слов.

Для подготовки данных, была написана программа на языке программирования Python, а для создания визуализации была использована библиотека Bokeh.

Результаты исследования

Вот список языков, отсортированных в порядке уменьшения процента уникальных слов в статье:

Русский: - 37%

Немецкий: - 27%

Итальянский: - 22%

Английский: - 21%

Французский: - 17%

Испанский: - 14%

Цифры - цифрами, а график куда нагляднее:

По результатам исследования видно что русский язык использовал наибольшее количество уникальных слов, по сравнению с другими языками. Интересен разрыв между русским и испанским языком - более чем в два раза.

Стоит ли делать выводы о "богатстве и могуществе" победителя этого небольшого соревнования? Я хоть и не являюсь лингвистом, но думаю, что не стоит.

Можно рассмотреть более узкое сравнение русского, например, с английским.

Дело в том, что русский язык может набирать очки за счет сложных слов. Сложные слова могут быть образованы путем сложения простых. А в английском языке одним из аналогов может быть фразовый глагол - цельная семантическая единица, состоящая из двух простых слов.

Еще русский язык набирает процент уникальности за счет множества окончаний одного базового слова. В английском нет такого обилия окончаний, но это не создает никаких проблем, так как слова в предложении выстраиваются в определенном порядке друг за другом.

Еще один аргумент в пользу приблизительного равенства возможностей рассматриваемых языков - косвенный. Достаточно взглянуть на уровень развития стран, использующих вышеприведенные языки. На их науку, технические достижения и культуру.

Станет ясно что их языки достаточно хорошо исполняют свою коммуникативную функцию между людьми. При высоком разделении труда, без четкого понимания друг друга, люди не смогут эффективно решать сложные технические задачи.

С другой стороны , большой словарный запас не обязательно улучшает взаимопонимание. Вероятно есть какой-то баланс. Золотая середина между нехваткой слов для выражения мыслей и нехваткой времени для пополнения словарного запаса.

Пример можно найти в области информатики. В среднестатистическом тьюринг-полном языке программирования пара-тройка десятков слов, несколько правил условностей и математических операторов. Это позволяет изучить язык с нуля за пару месяцев и реализовать на нем любую вычислимую функцию. Вывести спутник на орбиту. Создать искусственный интеллект. Вводить новые слова - переменные программист может по необходимости. Такой вариант языка удобен для применения людьми.

Компьютеру достаточно сообщить лишь два "слова" 0 и 1. И он работает без проблем. Но людям писать программы единицами и нулями чрезвычайно сложно. Это крайность.

Другая крайность - чрезмерное количество слов и понятий в языке. Такой язык станет недоступен для изучения ввиду его сложности.

Принцип Бритвы Оккама гласит: "Не следует привлекать новые сущности без крайней на то необходимости".

Пишите комментарии, ставьте лайки и подписывайтесь на канал. Удачи!