Найти в Дзене
малоизвестное интересное

Самая инновационная, прорывная и интригующая технология в области ИИ

Оглавление

Сравнение семантоскопических отпечатков. Источник http://www.cortical.io
Сравнение семантоскопических отпечатков. Источник http://www.cortical.io

Эта технология семантического поиска (поиска по смыслу) позволяет следующее.

✔️ Идентифицировать контент по его смыслу, а не по ключевым словам

✔️ В поисковом запросе используются не ключевые слова, а пример документа — мол, «я ищу документы про это»

✔️ Документ-пример на английском языке используется для поиска близких по смыслу документов «про это» на 20+ языках

✔️ Поиск в терабайтах данных идет на порядок быстрее, чем по ключевым словам

✔️ Проблемы многозначности и двусмысленности слов неявно решаются с помощью семантических сравнений

✔️ Система поиска добавляет новые термины «на лету» без переучивания и вообще без какой-либо переподготовки (т.е. динамически расширяет словарный запас)

Чем это отличается от сегодняшних мейнстримных технологий

Этот необычайно перспективный, абсолютно инновационный и альтернативный (я бы даже сказал, перпендикулярный) современному мейнстриму ИИ метод обработки естественного языка (NPL) основан на вычислительной нейробиологии.

Он называется Семантическая свертка (Semantic Folding) и преобразует текст в двоичные представления, что позволяет осуществлять вычислительную обработку и анализ текста, чтобы сравнивать и связывать разные тексты в обширном существующем или специально формируемом корпусе знаний.

Иначе говоря, Семантическая свертка позволяет сравнивать семантику слов и фраз в зависимости от контекста и оценивать степень их семантической близости. У нас — людей, это называется понимать язык. Такое наше умение принципиально отличает человека от любого современного ИИ, у которого умение понимать текст просто отсутствует.

Современные ИИ основаны на принципиально ином — статистическом подходе, который сегодня встречается повсюду: от онлайн переводчиков до голосовых ассистентов. Отсутствие понимания семантики языка заменяется здесь использованием колоссальной статистики. Переводчик Google Translate не понимает ни слов, ни их контекста. Зато у него есть база статистики, в которой переводимое слово встречается миллиарды раз, и методы машинного обучения, которые натаскиваются (обучаются) решать конкретную задачу — в данном случае, — перевод.

Статистический метод NLP работает повсюду, но есть проблемы. Этот метод требует огромного количества данных для обучения, длительного предварительного обучения алгоритмов и, что самое обескураживающее, широкий спектр интерпретаций — вариантов перевода при полном непонимании контекста.

И все это потому, что статистический метод NLP — это совсем не то, что делает наш мозг для понимания языка, а всего лишь то, чему люди смогли научить компьютер, чтобы он переводил.

Метод Семантической свертки — основа новой технологии

Метод Семантической свертки наоборот, — работает по аналогии с мозгом. И потому его требования к вычислительной производительности, объему данных и времени предварительной подготовки (натаскиванию) несоизмеримо ниже, чем у статистического метода. А спектр интерпретаций — вариантов перевода существенно уже, вследствие «понимания» контекста.

Метод Семантической свертки (см. видео на 4:44 мин) состоит из 3 фаз.

1) Переформатирование текста в SDR

Наш мозг (точнее его неокортекс) одинаковым способом преобразует (свертывает) информацию, поступающую от зрения, слуха, языка и всех иных источников. Всю эту инфу неокортекс преобразует в специальный формат хранения и обработки данных Разреженное Распределенное Представление — Spares Distributed Representation (SDR)
 Каждый SDR — это длинный двоичный вектор с очень малым числом 1. Каждая 1 кодирует определенный семантический аспект части входного текста (слова или фразы). Активация того же бита в 2х разных SDR означает, что они семантически близки, как минимум в том аспекте, что кодирует эта 1.

2) Формирование семантической карты

По единому, универсальному (для языка, зрения и слуха) алгоритму на основании SDR формируется семантическая карта.

— В тексте выделяют смыслосодержащие части — т.н. Лоскуты.

— Лоскуты распределяют по 2мерной решетке, так чтобы лоскуты близкого смысла находились как можно ближе друг к другу, а далекие по смыслу были тем дальше, чем дальше их смысл.

— Близкие лоскуты содержат некое число одних и тех же терминов.

— Сгруппированная по темам решетка составляет семантическую карту.

Каждый лоскут имеет 2 координаты, определяющие его место на семантической карте.

3) Генерация семантоскопических отпечатков

— Для каждого слова проверяется, есть ли оно в конкретных Лоскутах.

— Если есть, то координаты этого Лоскута заносятся на пустую Семантическую карту.

— Когда позиции всех содержащих слово Лоскутов нанесены на Семантическую карту, ее называют семантоскопический/семантический отпечатков — Semantic Fingerprints.

— Совокупность семантоскопических отпечатков формирует семантический словарь.

Как это работает на практике, см. в вышеупомянутом видео на примере слова «organ» (орган) в его разных семантиках/контекстах (коих, как минимум, 12).

В ролике показано, что семантоскопический отпечаток слова орган содержит в себе Кластеры Лоскутов: пианино, печень, церковь — т.е. слов, связанных с разной семантической трактовкой слова орган (музыкальной, анатомической, религиозной).

И если входная фраза, например, «орган и пианино — музыкальные инструменты», то чтобы ее осмысленно перевести:

а) для каждого из 5 слов строится его семантоскопический отпечаток;
б) все 5 отпечатков интегрируются в интегральный упрощенный отпечаток, на котором отмечаются только биты, превышающие т.н. порог разряженности (примерно 2% всех битов отпечатка);
в) интегральные отпечатки семантически близких фраз имеют похожие области (как, например, у фразы «орган и пианино — музыкальные инструменты» и фразы «Иоганн Себастьян Баха был композитор эпохи барокко»)
г) тогда как отпечатки семантически далеких фраз не имеют похожих областей (как, например, та же фраза «орган и пианино — музыкальные инструменты» и фраза «Рыбак выводит лодку из гавани»)

И все это вычисляемо, причем, быстро и точно.

Как работает технология семантического поиска

  • Для каждого документа в поисковой базе строится его семантоскопический отпечаток (СО).
-2

2. Строится СО документа-примера (близкого по смыслу к тому, что ищется)

-3

3. Система семантического поиска сравнивает СО документа-примера и документов в базе и рассчитывает их семантическую близость

-4

4. Результат поисковой выдачи настраивается по 2м параметрам: минимальная семантическая близость и максимальное число документов выдачи.

-5

5. Для индивидуализации каждого поискового запроса строится его собственный СО.

-6

6. Строится поисковый рейтинг документов на основе индивидуализированных поисковых запросов (этот рейтинг индивидуален для каждого пользователя, т.к. отражает его понимание семантической близости документов в выдаче по его заросам).

-7

Подробней см. здесь.

Если кто-то подумает, что вышеизложенное — лишь новая непроверенная идейка, — это совсем не так.

— Метод Семантической свертки разрабатывался в виде технологии 6 лет и имеет крепкое научно-теоретическое обоснование.

— В 2017 году технология выведена на коммерческий рынок и имеет солидных заказчиков.

— Эта технология названа экспертами IDC и Gartner самой инновационной, прорывной и интригующей технологией в области ИИ, соответственно, в 2016 и 2017.

N.B. Эта технология, уже называемая «Google for Business», отлично работает на внутренних базах документов отдельных компаний (например, Фольксваген), но пока не может заменить поисковые системы на статистическом подходе (Google, Яндекс и т.п.) для массового применения. Причина в том, что пока что не разработана аппаратная реализация основы метода Семантической свертки, и все «семантические вычисления», по сути, эмулируются на обычных компьютерах, изначально для этого не приспособленных.
Но это временно. И над этим ведется работа. В том числе, такими серьезными игроками, как IBM.

И самое важное

Основа метода Семантической свертки — Spares Distributed Representation (см. выше) — наряду еще с двумя супер-прорывными теоретико-технологическими инновациями,

составляют единую полномасштабную альтернативу всему современному мейнстриму ИИ.

Эта альтернатива

✔️ не только позволяет решать уже решаемые задачи, типа распознавания образов, на качественно ином уровне,

✔️ но и способна вплотную приблизить человечество к созданию «Сильного ИИ».

Об этом в следующих постах.

_________________________

Дополнительные материалы:

— простенькое изложение The Cortical Engine for Processing Text: видео на 12 мин

— более подробное изложение того же из уст сооснователя компании: видео на 33 мин

_________________________

Хотите читать подобные публикации? Подписывайтесь на мой канал вТелеграме, Medium, Яндекс-Дзене

Считаете, что это стоит прочесть и другим? Дайте им об этом знать, кликнув на иконку “понравилось”.