Добавить в корзинуПозвонить
Найти в Дзене
Душкин объяснит

Китайский язык и Искусственный Интеллект. Часть 11

Сегодня несколько техническая запись про китайский язык перед тем, как я продолжу описание своих мыслей на тему когнитологии с точки зрения изучения носителя китайского языка и того, что творится в его бедной голове. Эта запись в большей степени будет интересна тем, кто работает в области обработки естественного языка. Но она также необходима для понимания следующей заметки, которую я всё ещё готовлю. Я уже упоминал, что в китайском языке большинство слов двухморфемные, то есть слова состоят из двух «слогов» и, соответственно, записываются при помощи двух иероглифов. Проблема в том, что у каждого иероглифа в составе слова есть своё собственное значение. Часто оно так или иначе связано со значением слова, если смотреть с нашей точки зрения. Но с точки зрения китайца значения слова и входящих в его состав «подслов» связаны всегда. Я говорил об этом, когда мы рассматривали уровни семантики. Но как же понять в процессе чтения, перед нами отдельный иероглиф или входящий в состав сложно слов

Сегодня несколько техническая запись про китайский язык перед тем, как я продолжу описание своих мыслей на тему когнитологии с точки зрения изучения носителя китайского языка и того, что творится в его бедной голове. Эта запись в большей степени будет интересна тем, кто работает в области обработки естественного языка. Но она также необходима для понимания следующей заметки, которую я всё ещё готовлю.

Я уже упоминал, что в китайском языке большинство слов двухморфемные, то есть слова состоят из двух «слогов» и, соответственно, записываются при помощи двух иероглифов. Проблема в том, что у каждого иероглифа в составе слова есть своё собственное значение. Часто оно так или иначе связано со значением слова, если смотреть с нашей точки зрения. Но с точки зрения китайца значения слова и входящих в его состав «подслов» связаны всегда. Я говорил об этом, когда мы рассматривали уровни семантики.

Но как же понять в процессе чтения, перед нами отдельный иероглиф или входящий в состав сложно слова? Насколько мне позволяют сказать текущие знания и понимание грамматики китайского языка, проблем с этим никогда не возникает в силу устройства грамматики. Дело в том, что грамматические конструкции в этом языке очень жёсткие. Порядок слов практически всегда зафиксирован, и мы не можем без изменения смысла фразы менять порядок иероглифов в ней. Это, в свою очередь, значит, что синтаксический разбор и построение синтаксического дерева предложения происходит однозначно, и на все листьевые вершины этого дерева попадают целые слова. Похоже, что в китайском языке просто не может быть таких неоднозначностей, как «наполеонпосеяллёнкогдаполякипелижуравлями» и «сказочноебали».

Но если у нас поток иероглифов, которые считаются, например, с клавиатуры или какого-либо устройства, типа телетайпа. Как быть в этом случае? Ждать, когда придёт всё предложение? Можно. А можно просто использовать жадный алгоритм, который вынимает символы из потока до трёх пор, пока их максимальная последовательность не составит значимое слово. Два иероглифа смотреть недостаточно, так как иногда слова состоят из большего числа морфем. Ну то есть надо использовать что-то типа LR(1)-грамматики.

Но, возможно, я неправ, и указанные ранее неоднозначности в китайском языке присутствуют, причём в огромном количестве. Тут мне нужна подсказка тех, кто уже это знает...

P. S.: Когда начинаешь так плотно изучать китайский язык, то через какое-то время иероглифы начинают мерещиться повсюду.

Предыдущие выпуски нашей стенгазеты:

1) Начало: зачем всё это и причём тут Искусственный Интеллект.
2)
Векторная семантика: как составные слова получают свой смысл.
3)
24 черты китайских иероглифов: о том, как сложно учить этот язык.
4)
Компьютер = электрический мозг: как китайцы воспринимают ИИ.
5)
Простые и составные иероглифы: как создаются новые иероглифы.
6)
Четыре уровня семантики: какие есть связи между иероглифами.
7)
Глокая куздра: как китайский язык ограничивает развитие человека.
8)
Новые слова и концепции: о том, как создаются новые слова.
9)
Таблица иероглифов: инструмент для тех, кто изучает язык.
10)
Гипотеза Сепира-Уорфа: действительно язык определяет восприятие.