Найти в Дзене

Изучение технологических вмешательств на малоресурсном языке


Аннотация
Основным препятствием на пути разработки технологий для низко ресурсных языков является отсутствие пригодных для использования данных. В настоящем документе мы сообщаем о
принятие и внедрение 4 основанных на технологиях методов сбора данных для гонди - уязвимого языка с низким уровнем ресурсов, на котором говорят
около 2,3 миллиона племенных жителей на юге и в центре Индии. В процессе сбора данных мы также помогаем в его возрождении, расширяя
доступ к информации на гонди посредством создания лингвистических ресурсов, которые могут использоваться сообществом, таких как словарь,
детские сказки, приложение с контентом Gondi из множества источников и интерактивный голосовой ответ (IVR) на основе массовой осведомленности
платформа. В конце этих мероприятий мы собрали чуть менее 12 000 переведенных слов и/или предложений и определили больше
более 650 членов сообщества, к которым можно обратиться за помощью для перевода в будущем. Основной целью проекта является сбор
достаточно данных в Gondi для создания и внедрения жизнеспособных лингвистических технологий, таких как машинный перевод и речь в текстовых системах, которые могут помочь
вывести язык в интернет.
Ключевые слова: Низко ресурсные языки, развертывание, приложения.

Введение
Около 40% всех языков мира сталкиваются с танцами в ближайшем будущем. Языки не только средство коммуникации, но также и носитель традиций и такие культуры, как вербальное искусство, песни, повествования, ритуалы и т.д Когда умирает язык, на котором говорят в определенном сообществе. Будущие поколения теряют жизненно важную часть культуры, которая необходимо полностью это понять. Это делает Иэн предполагать уязвимый аспект культурного наследия и, следовательно, призывает к их сохранению. Когда дело доходит до спасения таких Языки, находящиеся под угрозой исчезновения, имеют два аспекта: Сохранение и возрождение (также называемое "возрождающейся лингвистикой"). (Цукерман, 2013). Первая касается того, как языки могут быть заархивированы с использованием различных ингвистических технологий ники, чтобы он мог служить поиском будущего генератора в то время как последние сосредоточены на обеспечении того, чтобы полоса Guage воскресает в повседневную ткань жизни людей. Самая большая история успеха возрождения языка.это иврит (Феллман, 1973), который был выращен немногими коренными жителями. Спикеров до нескольких миллионов. Такие инициативы, как SOAS's Endangered Languages Documenta-Программа (ELDP) 1 и Охрана языка (ТЛК) проект 2 вносит основной вклад в подготовку документации языков, находящихся под угрозой исчезновения. Однако язык эволюционирует с культурой, и сосредоточения внимания исключительно на архивных усилиях не хватает. О том, как общества могли бы развиваться по-другому. Их язык продолжал использоваться. В настоящее время и век глобализации и интеграции технологий почти во все стороны жизни, носители языка превращаются к доминирующим языкам быстрее, чем когда-либо. Чтобы обеспечить более широкие экономические и социальные возможности для финансирования Любые усилия по возрождению, предпринятые для равного вклад повседневные потребности должны включать в себя технологические вмешательства, которые могут полностью обратить эту деградацию вспять. эти языки должны быть интегрированы с  Интернет сеть, которая становится все более доминирующей частью нашей жизни, чтобы обеспечить их выживание и дальнейшее использование. Мы концентрируем наши усилия на Гонди, южно-центральном Дравидиане. Племенной язык, на котором говорит племя Гонд в Центральной Индии. Гонди дает уникальное представление о том, каким может быть язык. В опасности, даже после того, как у него есть все ингредиенты для поддержания... способный язык, как (1) длительная историческая преемственность (2) поп-музыка. 3 миллиона человек говорят на нем и, (3) широко распространено на которых говорят примерно в 6 штатах Индии с различными диалектами. И формы. Сложности возникают, так как Гонди — это преддверие... разговорный язык, не имеющий единого стандартного разнообразия, но ряд диалектов, некоторые взаимно неразборчивые. (Beine, 1994). Развертывание технологии является нетривиальной задачей, и есть лесопиления по поводу того, как языковые технологии должны быть реализованы для языков с низкими ресурсами (Joshiet al., 2019). Трудно просто передавать технологии преобладающие в языковых сообществах с высоким уровнем ресурсов до уровня второстепенных... сообщества по многим причинам, вождь среди них. Отсутствие данных на низко ресурсных языках. Наше дело... Таким образом, работа с гондовской общиной является центом...больше внимания уделялось разработке новых подходов к сбору данных... лекции, в отличие от хорошо обеспеченных ресурсами языков, где основное внимание уделяется больше об инжиниринге.