Найти в Дзене
Програмпроф

Что необходимо учесть в программном обеспечении для разработки корпусного инструментария?

Хоть наука не стоит на месте и ежедневно в сети появляется множество программ, для развития корпусной лингвистики необходима новая альтернативная модель. Программа для создания инструментов нового поколения, которая преодолевает ограничения современных инструментов третьего и четвертого поколения (более детально о поколениях читайте в предыдущей статье https://zen.yandex.ru/media/id/5dbac7cf8600e100ae4962d7/chetyre-pokoleniia-instrumentov-korpusnoi-lingvistiki-5dd06179e7b50530845dee65), но также не требует от корпусной лингвистики изучения передовых методов программирования.

Текущие тенденции в исследованиях в области корпусной лингвистики указывают на то, что будущие исследования будут все больше опираться на крупные корпорации, передовую функциональность и сложные статистические методы, такие как те, что обсуждались в "Баварии", Gries и других.

Сложности в разработке инструментов, способных справиться с этими требованиями, являются серьезной проблемой и, безусловно, выходят за рамки технических возможностей исследователей в области корпусной лингвистики, прошедших вводный курс по программированию.

В астрономии исследователи сталкиваются с аналогичной дилеммой в том, что им требуются все более сложные инструменты для более глубокого изучения темы и сбора более сложных измерений звезд, планет и других небесных объектов. Однако лишь немногие исследователи в области астрономии начали изучать возможности создания современных оптических и радиотелескопов. Напротив, они формируют исследовательские группы, в состав которых входят представители научного и инженерного сообщества, имеющие опыт и знания, позволяющие им создавать необходимые инструменты.

Ученый Антони Лауренс предложил, чтобы исследователи в области корпусной лингвистики более тесно сотрудничали с представителями научного и инженерного сообщества, такими как компьютерщики и разработчики программного обеспечения, в целях разработки и создания следующего поколения инструментов корпусной лингвистики. В рамках этих групп следует подумать о потребностях исследователей, учителей и учащихся, с тем чтобы обеспечить максимальную применимость этих инструментов.

Исследователи, применяющие комплексный подход, например, нуждаются в инструментах, которые могут работать с аннотированными корпорациями и обеспечивать доступ к сложным аналитическим функциям и статистическим показателям.

С другой стороны, исследователи с корпоративным фоном имеют меньше необходимости в аннотациях и статистических измерениях, поэтому инструменты должны быть в состоянии скрыть эти возможности и функции в интерфейсе.

Учителя, как правило, не нуждаются в инструменте для проведения исследований. Они должны иметь быстрый и легкий доступ к корпусу, фильтровать результаты, показывая только те, которые имеют непосредственное отношение к делу, и иметь возможность отображать, сохранять и, возможно, распечатывать эти результаты для использования в учебных материалах.

Аналогичным образом, учащиеся в классе базы данных DDL не нуждаются в инструменте исследования. Им нужен корпоративный инструмент, который дает им простой и интуитивно понятный доступ к корпусу. Также нужен инструмент для демонстрации результатов, которые могут быть непосредственно применимы к конкретной учебной задаче, например, поиск общего расположения слова или отображение языковой схемы, которая будет полезна при написании научной работы. Все эти вопросы напрямую связаны с проектированием инструмента.

Наконец, сложность будущих потребностей возможно потребует приложить усилия многих людей. Это говорит о том, что разработка инструментария должна быть инициативой с открытым исходным кодом, а его компоненты разрабатываются в модульной форме. Разделение функции и инструментов могут быть расширены, изменены или упрощены в зависимости от необходимости.

В качестве примера такого подхода к разработке инструментария для корпусов Энтони возглавил группу по разработке инструмента нового поколения под названием AntWebConc.

Этот инструмент был построен по модульному принципу с открытым исходным кодом, при участии исследователей и преподавателей и с учетом отзывов учащихся английского языка из японского университета, которые использовали прототип этого инструмента в учебной обстановке класса DDL. Чтобы избежать участи просто быть еще одним веб-сайтом, AntWebConc предназначен для использования в качестве фреймворка, в котором может размещаться целый ряд различных одинарных и параллельных корпораций. Это достигается за счет того, что система разработана с использованием архитектуры Model-View-Controller (MVC).

Хотя AntWebConc работает на сервере, его компоненты практически полностью совместимы с другими серверами и портативны. Это означает, что пользователь, желающий использовать фреймворк, может просто скопировать файлы фреймворка на стандартный сайт и немедленно получить доступ к их корпорациям и инструментам.

Примером пользовательской реализации AntWebConc является параллельный согласователь WebParaNews, используемый в классах DDL Нихонского университета в Японии.
Photo by Daniel Lee on Unsplash
Photo by Daniel Lee on Unsplash

Корпусная лингвистика становится одним из доминирующих подходов, используемых в лингвистических исследованиях, и все чаще используется при изучении языка.

Успех данного подхода неразрывно связан с инструментами, используемыми для доступа, анализа и отображения результатов поиска в целом. Хочется надеяться, что новая точка зрения на корпоративные инструменты приведет к постоянному росту инструментов корпусной лингвистики и отрасли в целом