Долгое время считалось само собой разумеющимся, что нет связи между структурой языка и окружающей средой, в которой он используется, что привело к долгосрочным и практически неоспоримым предположениям в современной лингвистике о том, что все языки одинаково сложны и одинаково трудны для изучения. Однако, в зависимости от подхода к подсчету, на планете существует множество различных языков и языковых вариантов, которые широко варьируются по своим структурным свойствам. Растущее количество межъязыковых исследований начало документировать, что естественная и социальная среды, в которых языки используются и изучаются, стимулируют это разнообразие, что структура языка подвержена влиянию социально-демографических факторов, таких как оценочное количество говорящих, и что долгое время существовавшее убеждение в принципе "неизменности сложности языка" может быть неверным.
В данной статье мы рассматриваем еще одно давнее предположение, которое, насколько нам известно, никогда не подвергалось систематическому тестированию: предположение о том, что все языки одинаково сложны в изучении. Основное препятствие для такого исследования было уже указано пионером современной лингвистики Генри Свитом в году: "практически невозможно для того, кто не обладает одинаково совершенным знанием всех языков, проверить это". В этом контексте когнитивные ученые и вычислительные лингвисты отмечают, что вычислительные языковые модели (LM), наиболее заметно проиллюстрированные широким успехом чат-бота ChatGPT от OpenAI, предоставляют вычислительную рабочую модель для эмпирического изучения различных аспектов человеческого языка. Недавние исследования показывают, что вычислительные модели могут учиться основным структурам, присутствующим в естественном языке, только на основе наблюдаемых обучающих входных данных, что долгое время считалось невозможным без врожденных лингвистических знаний. В этом смысле мы обучаем LM на письменных текстовых данных на разных языках. LM учится делать предсказания о последующем лингвистическом материале, находя короткое кодирование обучающего материала, которому она подвергается. С увеличением ввода LM становится лучше в предсказании последующих данных. Мы измеряем, насколько быстро LM учится делать оптимальные предсказания, и рассматриваем это как меру сложности обучения. Затем мы статистически анализируем эту меру на разных языках, чтобы проверить вышеупомянутое предположение.
Для более детальной статистики можете прочитать данную статью:
https://www.nature.com/articles/s41598-023-45373-z
Самый сложный в мире язык.
2 минуты
6 прочтений
12 мая