11,9 тыс подписчиков

Китайский язык и Искусственный Интеллект. Часть 10

12 января 201912 янв 2019

261

3 мин

Продолжаем изучать китайский язык. Я уже сбился со счёта относительно того, какой у меня день, но так как сегодня 12 января — стало быть, двенадцатый день моих терзаний. Как я обещал в сегодня подумаем на тему лингвистического детерминизма и релятивизма, о чём нам завещали думать товарищи Эдвард Сепир и Бенджамин Уорф. В строгом виде то, что мы знаем под термином «гипотеза Сепира-Уорфа», звучит так:

Язык определяет мышление, и, соответственно, лингвистические категории ограничивают и определяют когнитивные категории.

На самом деле, мало кто из учёных сегодня считает эту гипотезу верной и даже корректно поставленной. Тут, впрочем, есть тонкие нюансы — в науку всё чаще начинает вмешиваться политика, причём обычно левацкая, и некоторые «учёные» в угоду так называемой «политкорректности» начинают говорить и писать то, что требуют от них политиканы, а не научная истина. Но если смотреть с позиции последней, то моё мнение такое — когнитивные процессы слишком сложны, чтобы вот такой простой формулировкой их охватить. Наверняка там есть врождённые компоненты, что-то определяется культурой и окружением, а что-то и языком матери. Но вот этот детерминизм когнитивных процессов языковыми точно имеется, но важно понять степень его появления.

Давайте посмотрим на пример из китайского языка. Вот у нас есть слова «брат» и «сестра». В китайском они тоже есть, но вот в таком виде:

哥哥 = gēge = старший брат
弟弟 = dìdi = младший брат
姐姐 = jiějie = старшая сестра
妹妹 = mèimei = младшая сестра

Казалось бы, причём тут лингвистический детерминизм? Ну вот смотрите. Для нас (и других людей, говорящих на индоевропейских языках) что младший брат, что старший брат — это, в первую очередь, именно БРАТ. И с сёстрами ситуация такая же. Это братья и сёстры, а возраст здесь вторичен. Соответственно, первичное отношение к двум братьями, если не рассматривать всякие жизненные ситуации и нюансы, одинаковое — просто это два одинаковых объекта, которые называются одинаково.

А вот для маленького китайца один мальчик называется «гёгэ», а второй «диди». Почему? Ну вот так. Без всяких на то причин. Эти мальчики — гёгэ, а те — диди. Эти девочки — дзьедзье, а те — меймей. Ничего общего между ними нет. Никакой лингвистической общности. Иероглифы ничего общего друг с другом не имеют. Звучание слов тоже друг с другом ничего общего не имеет. Каким образом в голове у маленького китайца сформируется обобщающее понятие? Ну вот я вижу, что только вот таким:

哥哥 и 弟弟 — это 人 (мужчина, человек)
姐姐 и 妹妹 — это 女 (женщина), тем более, что этот простой иероглиф входит в оба составных, формирующих обе морфемы слов.

Иерархии языковых категорий — это тот каркас, на котором мы воспринимаем мир. Один из методов описания семантики для систем Искусственного Интеллекта заключается в составлении лесов категорий для описания всех понятий — так называемых онтологий. Чем детальнее онтология, тем лучше. Чем больше уровней в иерархии, тем детальней описание мира. В идеале каждые два понятия должны быть объединены в один класс, и не более. Русский язык строит детальные иерархические модели для описания мира (иногда даже чересчур детальные — подумайте о количестве диминутивных форм в русском языке), а китайский язык строит очень обобщённые иерархии с малым количеством уровней.

Пока вижу вот так.

Предыдущие выпуски нашей стенгазеты:

1) Начало: зачем всё это и причём тут Искусственный Интеллект.
2) Векторная семантика: как составные слова получают свой смысл.
3) 24 черты китайских иероглифов: о том, как сложно учить этот язык.
4) Компьютер = электрический мозг: как китайцы воспринимают ИИ.
5) Простые и составные иероглифы: как создаются новые иероглифы.
6) Четыре уровня семантики: какие есть связи между иероглифами.
7) Глокая куздра: как китайский язык ограничивает развитие человека.
8) Новые слова и концепции: о том, как создаются новые слова.
9) Таблица иероглифов: инструмент для тех, кто изучает язык.