Найти в Дзене
CatUniverse

Древняя фонетика и численное моделирование

Здесь могло бы быть два абзаца нытья о несправедливости судьбы и о том, какая ужасная тема мне выпала для заметки... Но дедлайн уже сгорел, мои нервы вслед за ним, так что вступления не будет, поехали без прелюдий. В 2013 году в модном американском журнале PNAS вышла оч знаменательная статья (про которую, конечно же, из нас мало кто слышал) - «Automated reconstruction of ancient languages using probabilistic models of sound change». Если вы ничего не поняли, то на простом человеческом цель сего исследования звучала примерно: «вот бы нам восстанавливать формы древних слов, не склоняясь над пыльными архивами с карандашиками, а как-нибудь автоматически». Спонтанные желания в 3 часа ночи выглядят именно так. Для таких же чайников как автор, нужно выдать немного матчасти: чего там они собрались восстанавливать? - Древние языки. Причем те, на которых уже не просто не говорят, а которые в принципе не засвидетельствованы. Зачем? Ну, примерно с той же мотивацией пытаются воскресить мамонтов. Эт

Здесь могло бы быть два абзаца нытья о несправедливости судьбы и о том, какая ужасная тема мне выпала для заметки... Но дедлайн уже сгорел, мои нервы вслед за ним, так что вступления не будет, поехали без прелюдий.

В 2013 году в модном американском журнале PNAS вышла оч знаменательная статья (про которую, конечно же, из нас мало кто слышал) - «Automated reconstruction of ancient languages using probabilistic models of sound change». Если вы ничего не поняли, то на простом человеческом цель сего исследования звучала примерно: «вот бы нам восстанавливать формы древних слов, не склоняясь над пыльными архивами с карандашиками, а как-нибудь автоматически». Спонтанные желания в 3 часа ночи выглядят именно так.

Для таких же чайников как автор, нужно выдать немного матчасти: чего там они собрались восстанавливать? - Древние языки. Причем те, на которых уже не просто не говорят, а которые в принципе не засвидетельствованы. Зачем? Ну, примерно с той же мотивацией пытаются воскресить мамонтов. Это же ̶п̶р̶и̶к̶о̶л̶ь̶н̶о̶ огромный вклад в науку и чрезвычайная важность для исследования процесса эволюции языков/существ! Как это делают? – Собственно так же, как и в биологии.

Дело в том, что согласно современным представлениям наши языки эволюционировали от общих предков, словно множество копий одного и того же текста, где каждую копию переписывали с “типовыми ошибками” - мутациями. Иллюстративно (только иллюстративно) мы имеем мировое языковое древо с листьями в виде современных языков, и промежуточными узлами - протоязыками, которых мы не слышали и не записали. Ну а где-то наверху, очевидно есть общий дед-язык, потерянный нами во время строительства одной очень большой башни.

Так вот, волшебники-лингвисты давно умеют по упомянутым «типовыми ошибкам» вручную воскрешать эти промежуточные протоязыки. Медленным сравнительным методом, они изучают тонны слов из двух и более современных языков, выявляют закономерности мутаций, проверяют эти закономерности и в конечном счете формируют слова протоязыка. Одна только проблемка у этой магии – в больших семьях, где анализировать приходится десятки или сотни языков, данных становится настолько много, что ручной метод начинает упираться в обидный факт конечности человеческой жизни.

Только лингвисты сказали свое мечтательное «вот бы нам автоматизировать…», как откуда-то появились математики, набросились на свежую задачку и протащили свои излюбленные инструменты в гуманитарную область. Вообще, попомните мои слова: математика – как таракан - пугающе вездесущая наука, выползает, где не ждешь.

«И пришли они, и облекли все в цифры».

Слова, разбитые на последовательности звуков - фонем, превратились в строки символов, над каждым из которых установили правила мутаций (как сложение или деление в математике): замена звука, вставка и выпадение звука. Эту идею авторы честно позаимствовали из вычислительной биологии. Когда биологи восстанавливают предковые последовательности ДНК, они тоже имеют дело со “строками”, которые эволюция постоянно редактирует заменами, вставками и удалениями.

Вся дальнейшая сложность заключалась в определении наиболее правдоподобного сценария появления изменений, ведь складывать и умножать все фонемы подряд неразумно. Нужно понять, какая мутация была наиболее вероятна на данном этапе. В ручном методе это очень часто работает на опыте лингвиста «не, ну так развиваться было бы тупо, так что отвечаю, было вот так» (конечно, все не настолько примитивно, но я вам что, лингвист, чтобы пояснять за "регулярные звуковые соответствия"?). А вот если мы подряжаем на вычислительную работу компьютер, он как раз будет сидеть и перебирать миллиарды тупых вариантов протоязыков, наравне и с тем истинным, который мы ищем. В итоге, мы бы имели обезьянок, печатающих Шекспира.

Поэтому помимо оцифрования фонем и назначения правил действий с ними, так же задали вероятности того, как “строка-слово” могли превращаться из поколения в поколение вдоль ветвей дерева, а лишние абсурдные ветви языка заранее отрезались методом Монте-Карло и программа не тратила время на них (не спрашивайте, пожалуйста, про метод Монте-Карло, я туда не полезу). В общем-то, все.

Что у ребят c этой програмкой получилось сделать: авторы статьи применили систему к 637 австронезийским языкам (а чем больше потомков учитывается, тем потенциально точнее выхлоп). Затем машинный результат сравнили с ручной реконструкцией специалиста Роберта Бласта – легендарного дядьки в своих кругах, который полвека занимался полевой лингвистикой и преподавал на Гавайях. Есть такой термин «расстояние Левенштейна» — сколько замен/вставок/удалений нужно, чтобы превратить один вариант в другой, так вот более 85% машинных реконструкций оказались “в пределах одного символа” от ручной.

Круто? Круто. А теперь, что это все вообще значит.

Короче (как вы поняли, нифига короче у меня не получилось), у лингвистов появился хороший, удобный софт для быстрого получения статистической картины возможных протоязыков. Считай, CAE-шка для гуманитариев. Причем, в финале авторы очень трезво поставили предохранитель от техно-пафоса: без шарящего лингвиста программа так же топорна, как какие-нибудь ансисы без шарящего инженера. Эксперт всё равно нужен — хотя бы потому, что реальные языки постоянно контактируют, заимствуют слова, выравнивают формы “по аналогии” и вообще ведут себя не как идеальное дерево. Так что математика - эт круто, конечно, но она есть инструмент.

Помимо ускорения сравнительного анализа и облегчения работы ученых, автоматическая реконструкция дала способ количественно затестить старую лингвогипотезу. Почему одни звуки меняются охотнее, а другие держатся веками? Обычно это демонстрируют на “гипотезе функциональной нагрузки” (functional load), впервые предложенной в 1955 году. Ее идея в том, что звуки, которые сильнее помогают различать слова, должны реже “схлопываться” или меняться. Так вот в качестве бонуса, в статье сказано, что их реконструкции дают убедительную поддержку этой гипотезе. Но об этом как-нибудь в другой раз (то есть никогда, ребят, сорян).

Где-то здесь я выполнил свой долг Тайного Санты. Но есть еще одна мысль, которую хочется как-нибудь аккуратно ввернуть.

Почему вообще лингвисты смогли представить звуковые изменения как “моделируемую” штуку? Ведь по сути это просто строгая алгоритмизация уже существующей схемы сравнительного метода, который кто-то когда-то догадался применить в языках. И этот кто-то - Уильям Джонс.

В 1786 году сэр Уильям Джонс (юрист вообще-то, а востоковед в качестве хобби) в речи для Азиатского общества сформулировал свою знаменитую мысль о родстве санскрита, греческого и латинского. Да так удачно, что её потом цитировали веками: ни один филолог не сможет изучить их “не поверив”, что они “sprung from some common source, which, perhaps, no longer exists”. Может быть, сама идея родства языков и не принадлежит Джонсу (даже скорее всего так), но с его популярного доклада начинается официальная эра сравнительного языкознания, когда пошла робкая, но верная математизация лингвистики, обрастание этой науки метриками и закономерностями, которые привели впоследствии (через много всяких разных других гипотез и инструментов) к тому, что реализовали авторы статьи 2013 года.

А знаете, че самое смешное? Отец сэра Уильяма Джонса, которого звали внезапно - УИЛЬЯМ ДЖОНС – этот тот математик, который тусил с Ньютоном и Галлеем и вообще-то ввел обозначение для числа пи, того символа, что мы привыкли видеть в учебниках. Повлиял ли отец на мышление сына? Мне кажется, что что-то было.

Автор загасился