12 тыс подписчиков

Китайский язык и Искусственный Интеллект. Часть 3

3 января 20193 янв 2019

715

2 мин

Что ж, продолжим. Третий день нового года, и я продолжаю изучать китайский язык и то, какие нюансы имеются в нём с точки зрения Искусственного Интеллекта и для разработки оного ИИ (предыдущие части: 1 и 2). Но перед тем, как я продолжу, я хотел бы написать некоторого рода предупреждение для своих читателей. Я только начал учить язык (хоть и пытался делать это в начальной школе), я смотрю, что в нём есть и как это можно соотнести с моими знаниями в области когнитологии. Я пишу здесь только свои наблюдения и гипотезы. Прошу, не надо делать многозначительных и далеко идущих выводов из моих кратких заметок. Они здесь лишь для того, чтобы возбудить в вас любопытство и натолкнуть на дальнейшие размышления, которые можно обсудить и в обсуждении найти что-нибудь новое и интересное. Не более. Китайские специалисты в области ИИ в любом случае получали свои знания в западных университетах и разрабатывают свои ИИ-системы в рамках западной парадигмы научного познания и технологического развития. По

Китайские специалисты в области ИИ в любом случае получали свои знания в западных университетах и разрабатывают свои ИИ-системы в рамках западной парадигмы научного познания и технологического развития. Поэтому неверно считать, что «китайский ИИ» — это какой-то особый национальный ИИ Поднебесной Империи, о чём написали некоторые мои читатели. Это совсем не так.

Так вот пока я вижу, что в части обработки естественного языка разработка модуля для «понимания» смысла китайской грамоты будет намного проще, чем для индоевропейских языков. Модуль понимания, написанный на особым образом построенных формальных грамматиках, получит базовую семантическую сеть в подарок. Но не факт, что он сможет ею пользоваться.

Теперь немного про саму китайскую грамоту. Оказывается, что все китайские иероглифы состоят из так называемых «черт». Всего есть 24 разные черты́, и число оных черт в иероглифах ранжируется от одной до нескольких десятков. Сами черты пишутся строго в определённой последовательности сверху вниз и слева направо. По виду иероглифа можно точно и однозначно сказать, из каких черт он состоит и в какой последовательности они пишутся, чтобы составить иероглиф. А это значит, что че́рты — это как буквы в наших обычных языках, а иероглифы — как будто бы слова. И тогда расположить иероглифы как бы в алфавитном порядке не составляет труда. Проблема в том, что оные че́рты не имеют никакой отдельной семантики, и по их вижу, числу и последовательности никак нельзя сказать, как читается тот или иной иероглиф. А, стало быть, это надо учить и запоминать. Бедные китайские дети, которые учатся читать. Бедные китайские родители, которые учат своих детей читать.

电脑 — это компьютер, дословно «электрический мозг». В следующий раз я напишу свои мысли о том, что из этого следует...