О том, как лингвистический корпус важен для развития лингвистики
28 октября 2023 года в Институте филологии, иностранных языков и медиакоммуникации ИГУ в рамках проекта «Научные субботники» прошла лекция «Зачем нам два миллиарда слов: лингвистический корпус как инструмент исследования». Лектором выступила Александра Айсанова, кандидат филологических наук, доцент кафедры русского языка и общего языкознания факультета теоретической и прикладной филологии ИФИЯМ ИГУ.
«Лекция посвящена инструменту, который позволяет совершать открытия в области лингвистики, а именно – лингвистическому корпусу. Лингвистический корпус – это представленный в электронном виде массив языковых данных. В лингвистике он используется для изучения различных языковых явлений» – говорит Александра.
Найти многообразные сочетания слов можно в Национальном корпусе русского языка, он включает в себя более двух миллиардов словоупотреблений. Лингвистический корпус можно сравнить с электронной библиотекой. Но все же есть кардинальные различия. Например, в электронную библиотеку входят тексты, обязательно представляющие собой законченные произведения, они содержат только библиографические и культурные данные, также важна сама полнота текста. В лингвистическом корпусе тексты являются образцами, важна лингвистическая разметка, а полнота текстов необязательна.
Ключевым свойством лингвистического корпуса является его репрезентативность – способность корпуса достоверно представить состояние языка в определённую эпоху.
Сегодня существуют разные типы лингвистических корпусов:
- корпуса устной и письменной речи,
- корпуса литературного языка и корпуса диалектной речи,
- моноязыковые и параллельные корпуса,
- корпуса, отражающие современное состояние языка, и исторические корпуса,
- «общие» корпуса и корпуса текстов определенного стиля/жанра/формы.
Важнейшим инструментов в корпусе является лингвистическая разметка – приписывание текстам и их компонентам специальных меток, позволяющих находить определенные языковые единицы. Разметка позволяет находить слова с определёнными компонентами значения, слова в определённой форме (например, все формы родительного падежа).
Национальный корпус русского языка позволяет осуществлять разные типы поиска, и даже человек без специального образования легко сможет найти интересующие его употребления слова. Особенно интересна функция «Портрет слова»: она описывает определённую языковую единицу с разных точек зрения, опираясь на контексты, представленные в корпусе.
«Язык – это не то, что мы о нем представляем, это огромный океан, в котором может оказаться для нас много неожиданного, но верного. И изучать несоответствие того, как мы себе это представляем и того, что есть на самом деле, одна из самых интересных лингвистических задач» –заключила Александра.
Лекция «Зачем нам два миллиарда слов: лингвистический корпус как инструмент исследования» проходила в ИФИЯМ ИГУ в рамках проекта «Научные субботники». Видеозапись прямой трансляции можно посмотреть по ссылке: https://rutube.ru/video/783cc9de3aadc8abefcc10d13212d5b5/?r=wd
Кристина Судакова.
Управление информационной политики ИГУ.