Математика отлично работает с правилами, но язык живёт ещё и исключениями. Алгоритмы могут блестяще переводить документацию, но сбиваться на стихах или диалогах из фильмов. Разберёмся, где проходит граница между строгими формулами и неуловимой семантикой - и какие ориентиры помогают не утонуть в смыслах.
Компьютеры оперируют символами. Слово для них - набор букв, а не культурный код. Это создаёт "смысловой разрыв" между реальностью и её формальным описанием. Ключевую роль здесь играет семантическая неопределённость - многозначность слов, которая обеспечивает языку гибкость, но мешает формализации. Специалисты до сих пор спорят: можно ли полностью описать человеческое мышление средствами формальных математических моделей.
Живая историческая реплика: кто придумал "демона"
Похожая проблема предела формализации возникает и в физике. Вот классический мысленный эксперимент, который тоже упирается в границы строгих моделей.
В конце 1860-х годов Джеймс Клерк Максвелл в письмах коллегам (в частности, в 1870 году - лорду Рэлею) впервые описал мысленный эксперимент, позже названный "демоном Максвелла". Сам Максвелл этого термина не использовал. Слово "демон" в 1874 году предложил Уильям Томсон (лорд Кельвин), публикуя статью в журнале Nature. Томсон ввёл этот термин, и не пытался развенчать сам мысленный эксперимент. Историки науки предполагают, что Томсон использовал слово в античном смысле "даймона" - не злого духа, а сверхъестественного агента или посредника.
Математические структуры, которые видят только связи
В исследованиях по компьютерной лингвистике (например, в рамках композициональной тензорной семантики, развиваемой с середины 2010-х годов) был предложен тензорный подход (грубо говоря, многомерная таблица чисел, обобщение матрицы) к моделированию семантико-синтаксических связей между словами в предложениях. После обработки большого корпуса текстов (например, материалов английской "Википедии") и факторизации построенных тензоров алгоритм генерирует для каждого слова векторы семантико-синтаксической валентности - то есть способности слова притягивать к себе определённые типы слов-спутников.
Простыми словами - у каждого понятия появляется свой "цифровой портрет". Слово "лететь" обычно оказывается ближе к словам вроде "птица" или "самолёт", чем к объектам, которые редко выступают субъектами такого действия. Метод позволяет выявлять статистически устойчивые связи между словами и контекстами. Но в полной формализации языка остаются ограничения.
Когда модель не сходится сама с собой
От научной модели обычно ожидают внутренней непротиворечивости. Семантические модели часто ведут себя иначе. Они могут хорошо работать на научных статьях, но хуже - на художественной литературе, где слова теряют привычные валентности.
В начале 2020-х годов появились тензорные модели, в которых дополнительно выделялось "концептуальное" измерение - для уменьшения потерь семантической информации. И всё же, как отмечают некоторые исследователи языка и искусственного интеллекта, полная формализация смысла без потери части его функций остаётся открытым вопросом.
Голографический кристалл: почему целое больше суммы частей
Если позволить себе метафору: слово чем-то напоминает голограмму. В нём отражается целый культурный пласт. "Медведь" в зоологическом справочнике и в сказке "Маша и три медведя" - почти разные слова. Компьютер же видит только символы, у него нет доступа к "внешнему миру" с его классификациями и традициями.
Как не утонуть в смыслах: три мягких шага
Если вы встречаете очередную новость об "ИИ, который понял человека", вот три ориентира, которые помогут отделить науку от преувеличения.
Шаг 1. Посмотрите, откуда взялись векторы. Если автор говорит, что модель "просто работает", но не уточняет корпус текстов и метод настройки - это повод насторожиться. В серьёзных исследованиях обычно указывают: например, частотный анализ синтаксических структур статей из английской "Википедии" и неотрицательная тензорная факторизация (метод разложения многомерных таблиц на простые составляющие).
Шаг 2. Поищите "провалы". Спросите себя: на каких текстах модель может сломаться? Если автор честно рассказывает о границах метода (например, что модель не подходит для поэзии), ему можно верить. Утверждение о "полной формализации смысла", скорее всего, преувеличение.
Шаг 3. Задайте вопрос про контекст. Если кто-то утверждает, что решил проблему контекстной зависимости раз и навсегда, попросите показать это на неоднозначных примерах. Красивая картинка с многомерными тензорами - ещё не доказательство.
Вместо заключения: почему неопределённость - это не всегда плохо
Получается забавная штука. Мы только что потратили внимание на то, чтобы понять, как мы понимаем. Самосогласованность почти достигнута. Но осталась та самая семантическая неопределённость, без которой язык, вероятно, был бы больше похож на свод инструкций, чем на живую речь. И в этом есть своя тихая ирония. Дочитывая последние строки, можно заметить с улыбкой: возможно, так и должно быть. Иначе если бы мы разгадали смысл до конца, мы бы лишили себя удовольствия его искать...