Найти тему
Програмпроф

Зачем в корпусной лингвистике программирование?

В этой и ряде последующих статей будет описана тема программирования в корпусной лингвистике: описание понятия корпусной лингвистики, развитие программ и предложения по разработке таких программ в будущем от исследователей.

Корпусная лингвистика - это прикладной лингвистический подход, ставший сегодня одним из доминирующих методов анализа языка. Она включает четыре основные характеристики:

1) эмпирический (экспериментальный) подход, в котором анализируются модели использования языка в реальных языковых текстах (устных и письменных);

2) в качестве основы для анализа используется репрезентативная выборка целевого языка, хранящаяся в электронной базе данных (корпус);

3) опирается на компьютерные методы подсчета лингвистических характеристик;

4) частично опирается на качественный анализ и результаты его проведения.

 https://pixabay.com/ru/photos/рука-люди-рабочий-стол-палец-цвет-3285912/
https://pixabay.com/ru/photos/рука-люди-рабочий-стол-палец-цвет-3285912/

В сообществе корпусных лингвистов есть небольшие разногласия по поводу подхода. Некоторыми исследователями утверждая, что это больше, чем просто методология, и вместо этого следует рассматривать ее как новую отрасль лингвистики. Также ведется обсуждение, как следует проводить корпусные эксперименты.

· Одна школа исследователей считает, что отправной точкой для анализа должны быть прямые наблюдения за корпусом. Обычно это называется "корпусным" подходом и часто ассоциируется с анализом простых текстов, использующих линии согласия Key Word In Context (KWIC).

· Другая группа мыслителей утверждает, что невозможно полностью удалить все ранее существовавшие представления о языке до наблюдения за корпусами, и, таким образом, весь анализ проверяют ранее существовавшие лингвистические теории (модель) на основе репрезентативной выборки реального языка (данные корпуса). Этот анализ впоследствии приводит к уточнению существующих теорий или к созданию новых.

Тем не менее, один из аспектов корпусной лингвистики, который до сих пор обсуждался гораздо реже, заключается в важности проведения различия между данными о корпусе и инструментами, используемыми для анализа этих данных.

В любой эмпирической области, будь то физика, химия, биология или корпусная лингвистика, важно, чтобы исследователь отделял фактические данные от внешнего вида этих данных, как это видно через инструмент наблюдения.

С другой стороны, исследователи, как правило, уделяют меньше внимания этому разделению. На местах сохраняется тенденция игнорировать инструменты анализа и рассматривать собственно свод данных как неизменный "инструмент", который используется для непосредственного наблюдения за новым явлением.

Одна из причин размывания границ между данными и инструментами корпусной лингвистики заключается в том, что сами данные могут сильно различаться по качеству и количеству в зависимости от плана исследования. Это привело к тому, что многие исследователи посвятили себя и большую часть своего времени и усилий по сбору большего объема качественных данных, а затем смирились с необходимостью использовать имеющиеся инструменты для наблюдения за этими данными.

Другая причина заключается в том, что в корпусной лингвистике используются программные средства, основанные на программном обеспечении, а значит, и абстрактные по своей природе.

Для разработки инструмента корпусной лингвистики необходимо понимание не только человеческих языков, но и языков программирования, компьютерных алгоритмов, методов хранения данных, кодирования символов и визуального проектирования пользовательского интерфейса. Без глубоких знаний этих различных аспектов разработки программного обеспечения и их влияния на анализ данных можно забыть о той решающей роли, которую играют инструменты.

Разделение этих двух компонентов помогает разрешить две длительные дискуссии в этой области, касающиеся размера и аннотации корпусов. Необходима модель для будущего проектирования и разработки инструментария корпуса, которая не будет полагаться на изучение лингвистами корпуса передовых методов программирования, но, тем не менее, может привести к созданию более мощных и гибких инструментов. Такие инструменты становятся все более необходимыми для передовых исследований в области корпусной лингвистики.

Современные инструменты, доступные для лингвистов-корпусников, быстры и многофункциональны. Они также предоставляют исследователям доступ к широкому спектру функций для анализа KWIC, графиков распределения, кластеров и N-грамм, коллокатов, частот и ключевых слов.

С другой стороны, большинство инструментов все еще ориентированы на английский язык, поскольку они позволяют получить доступ только к английским компаниям.

Они также, как правило, ориентированы на изучение, поскольку не всегда удобны для использования учащимися. Еще одна проблема заключается в том, что они не объясняют используемые ими параметры, наиболее фундаментальной из которых является их внутреннее определение слов.

Наконец, все они предлагают разный пользовательский опыт, поскольку каждый инструмент создается отдельно и, таким образом, предлагает свой пользовательский интерфейс, поток управления и функциональность.

Одно из решений текущих проблем, связанных с инструментарием корпуса, это поощрение лингвистов изучать программирование и разрабатывать собственные аналитические материалы, инструменты. Если корпусный лингвист сможет разработать собственные инструменты, то он сможет проводить анализ быстрее и точнее, адаптировать результаты к своим собственным исследовательским потребностям и анализировать корпус любого размера. Программирование позволяет им взять под свой контроль программу исследований.

Явные преимущества изучения языка программирования среди лингвистов-корпусников заключаются не только в том, что он предоставляет им большую гибкость при разработке инструментов для решения конкретной задачи, но и в том, что дает им понимание вопросов, которые все они решают, а разработчики инструментов должны учитывать при разработке инструментов общего назначения.