Значительная часть языков, когда-либо существовавших на свете, уже мертва или вот-вот исчезнет. О многих из них учёные знают лишь благодаря археологам, время от времени обнаруживающих камни, глиняные таблички и другие предметы с неизвестными надписями. Но расшифровка утраченных языков — это не просто баловство. Благодаря этой сложной и медленной работе мы получаем новые знания о людях, которые когда-то разговаривали на этих языках.
К сожалению, существует десятки мёртвых языков, о лексике, грамматике и синтаксисе которых нет информации. Текста настолько мало, что даже самые опытные учёные не могут расшифровать его. Не сильно помогают им и алгоритмы машинного перевода наподобие тех, что используют Google Translate и Яндекс.Переводчик. Им не хватает материала и «языков сравнения», на которые можно было бы опереться для расшифровки надписей. Усложняет задачу тот факт, что в некоторых текстах отсутствуют знаки препинания.
Нейросеть-лингвист
Но технологии способны помочь и с этой проблемой. Исследователи из Массачусетского технологического института на днях объявили о том, что создали нейросеть, способную помочь лингвистам расшифровывать мёртвые языки. Она умеет автоматически переводить текст с утерянного языка, не требуя информации о его связи с другими языками. Более того, она способна самостоятельно определять отношения между языками. Например, она провела независимое исследование и подтвердила недавно опубликованные выводы о том, что иберийский язык не имеет связей с баскским.
Исследовательская команда планирует усовершенствовать модель таким образом, чтобы она могла расшифровывать утерянные языки, которые не поддавались лингвистам на протяжении десятилетий. И при этом использовала всего несколько тысяч слов.
Как это работает
Нейросеть работает с использованием базовых принципов лингвистики. Например, специалисты по древним языкам сделали вывод, что что буква «p» в родительском языке со временем может поменяться на «b» в языке-потомке. А вот на «k» поменяется вряд ли, поскольку произношение этих букв сильно отличается.
Алгоритм расшифровки языков учится встраивать звуки языка в многомерное пространство, где различия в произношении отражены как расстояние между соответствующими векторами. Возникают шаблоны изменения языка. Модель может сегментировать слова на древнем языке и сопоставлять их с аналогами на современном, родственном ему. Для этого блоки данных загружаются в облачное хранилище, и нейросеть обрабатывает их, пытаясь найти общие параметры.
Нейросеть также способная оценить степень родства двух языков. Фактически, при тестировании на известных языках, система точно определяет языковые семьи. Исследователи сравнили иберийский язык на предмет возможной родственности с баскским, а также менее вероятными «родственниками» из романских, германских, тюркских и уральских семей. Выяснилось, что хотя баскский и латынь были ближе к иберийскому, чем другие языки, но родственными они всё равно не являются — слишком много различий.
Что дальше
Метод расшифровки языков на основе родственных слов будут развивать и дальше. Планируется включение определения семантического значения слов. Например, в тексте можно идентифицировать все ссылки на людей или места, а затем изучить их в свете известных науке исторических фактов, чтобы понять, какое значение имело то или иное отмеченное слово. Подход может применяться без каких-либо обучающих данных на исследуемом языке.
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем не чаще двух раз в неделю и только по делу.
Понравилась статья? Ставьте ЛАЙК 👍, делитесь в социальных сетях и подписывайтесь на канал, чтобы не пропускать новые выпуски! Если у вас есть желание оценить преимущества облачной платформы Cloud4Y, оформите заявку на бесплатный тестовый доступ или позвоните нам +7 (495) 268-04-12.