Найти тему

Зачем нам два миллиарда слов?

О том, как лингвистический корпус важен для развития лингвистики

28 октября 2023 года в Институте филологии, иностранных языков и медиакоммуникации ИГУ в рамках проекта «Научные субботники» прошла лекция «Зачем нам два миллиарда слов: лингвистический корпус как инструмент исследования». Лектором выступила Александра Айсанова, кандидат филологических наук, доцент кафедры русского языка и общего языкознания факультета теоретической и прикладной филологии ИФИЯМ ИГУ.

«Лекция посвящена инструменту, который позволяет совершать открытия в области лингвистики, а именно – лингвистическому корпусу. Лингвистический корпус – это представленный в электронном виде массив языковых данных. В лингвистике он используется для изучения различных языковых явлений» – говорит Александра.

Найти многообразные сочетания слов можно в Национальном корпусе русского языка, он включает в себя более двух миллиардов словоупотреблений. Лингвистический корпус можно сравнить с электронной библиотекой. Но все же есть кардинальные различия. Например, в электронную библиотеку входят тексты, обязательно представляющие собой законченные произведения, они содержат только библиографические и культурные данные, также важна сама полнота текста. В лингвистическом корпусе тексты являются образцами, важна лингвистическая разметка, а полнота текстов необязательна.

Ключевым свойством лингвистического корпуса является его репрезентативность – способность корпуса достоверно представить состояние языка в определённую эпоху.

Сегодня существуют разные типы лингвистических корпусов:

  • корпуса устной и письменной речи,
  • корпуса литературного языка и корпуса диалектной речи,
  • моноязыковые и параллельные корпуса,
  • корпуса, отражающие современное состояние языка, и исторические корпуса,
  • «общие» корпуса и корпуса текстов определенного стиля/жанра/формы.

Важнейшим инструментов в корпусе является лингвистическая разметка – приписывание текстам и их компонентам специальных меток, позволяющих находить определенные языковые единицы. Разметка позволяет находить слова с определёнными компонентами значения, слова в определённой форме (например, все формы родительного падежа).

Национальный корпус русского языка позволяет осуществлять разные типы поиска, и даже человек без специального образования легко сможет найти интересующие его употребления слова. Особенно интересна функция «Портрет слова»: она описывает определённую языковую единицу с разных точек зрения, опираясь на контексты, представленные в корпусе.

«Язык – это не то, что мы о нем представляем, это огромный океан, в котором может оказаться для нас много неожиданного, но верного. И изучать несоответствие того, как мы себе это представляем и того, что есть на самом деле, одна из самых интересных лингвистических задач» –заключила Александра.
-2

Лекция «Зачем нам два миллиарда слов: лингвистический корпус как инструмент исследования» проходила в ИФИЯМ ИГУ в рамках проекта «Научные субботники». Видеозапись прямой трансляции можно посмотреть по ссылке: https://rutube.ru/video/783cc9de3aadc8abefcc10d13212d5b5/?r=wd

Кристина Судакова.
Управление информационной политики ИГУ.