Почему китайцы не последуют примеру всего мира и не перейдут на латинские буквы, ведь будущее стоит за алфавитным письмом?
Синтаксический анализ языка является фундаментальной проблемой в процессе изучения естественного языка и на протяжении десятилетий является предметом интенсивных исследований и разработок. В результате, наиболее точные анализаторы являются домен-специфичными, сложными и эффективными.
В данной статье показано, что модель последовательности от внимания к последовательности, усиленная агностикой, достигает самых современных результатов на наиболее широко используемом наборе синтаксических данных разбора округов при обучении работе с большим синтетическим гнойником, который был аннотирован с использованием существующих парсеров.
Он также соответствует производительности стандартных анализаторов, когда обучается только по небольшому набору данных, аннотированных человеком, что показывает, что эта модель является высокоэффективной в отношении данных, в отличие от моделей последовательностей без механизма внимания.
Наш парсер также работает быстро, обрабатывая более ста предложений в секунду с неоптимизированной реализацией CPU.
Все человечество переходит на латиницу, и это показатель прогресса.
По правде сказать, китайцы сами были бы рады перейти на алфавит. Но они имеют некоторые трудности. В истории было много попыток уйти от иероглифов и перейти к алфавиту.
Эти попытки предпринимали и российские ученые, и европейские, и сами китайцы. Но ничего не получилось, а все по тому, что в китайском языке сильно такое явление, как амофония. То есть буквальная схожесть звучания. Это такие слова, которые на слух звучат совершенно одинаково, но пишутся по-разному.
Как пример, «избирательная кампания» и «наша дружная компания», как вы понимаете, звучат одинаково, а пишутся по-разному. И у них совершенно разное значение. Или «пушистый кот» и «секретный код», такая же ситуация.
Китайский язык практически весь состоит из подобных слов, в этом языке количество слогов строго ограничено. Нельзя взять и просто выдумать совершенно новое слово, это невозможно.
При этом какое-то слово может записываться совершенно разными иероглифами, иметь совершенно разное значение и в контексте может в данном случае быть несколько слов, которое может подойти. И как вообще здесь разобраться?
Ниже будет пример стихотворения, который дает понять, почему нельзя занимать китайские иероглифами.
Еще не менее важный момент, это диалекты. В Китае говорят на большом количестве различных диалектов, и даже если предположить, что можно перевести Китай на алфавит, станет печально, потому что каждый диалект придется записывать этим самым алфавитным письмом. И записи из Южного Китая будут совершенно не понятны жителям из Северного Китая, в то время как записи иероглифами будут понятны всем жителям Китая.
В этом заключается универсальная функция иероглифов, междиалектное общение становится реальным при такой функции. Поэтому ответ на вопрос почему китайцы не могут перейти на фонетический алфавит, напрашивается сам собой, потому что это просто невозможно.
Если взять какой-то текст и просто записать его транскрипцией, то читатель просто его не поймет, невозможно его будет прочитать, поэтому для китайского языка только иероглифы, другого выхода совершенно нет.
В этой работе мы показали, что общие подходы последовательности могут достичь отличных результатов при синтаксическом разборе электората при относительно небольших усилиях или настройках. Кроме того, хотя мы обнаружили, что модель не является особенно эффективной, модель внимания Бахданау и др. оказалась высокоэффективной, поскольку она соответствовала производительности BerkeleyParser при обучении работе с небольшим набором данных по парсингу, отмеченным человеческими нотами.
Наконец, мы показали, что синтетические наборы данных с несовершенными метками могут быть очень полезны, поскольку наши модели значительно превзошли те, которые использовались для создания данных обучения.
Мы подозреваем, что это происходит из-за различий в характере модели учителя и модели ученика: модель ученика, скорее всего, рассматривала ошибки учителя как шум, который он был в состоянии игнорировать.
Такой подход оказался настолько успешным, что мы получили новый современный результат в синтаксическом разборе электората с единой моделью внимания, а это значит, что модель работает очень быстро. Данная работа показывает, что независимые от домена модели с отличными алгоритмами обучения могут соответствовать и даже превосходить специфические доменные модели.