Новые возможности задавания слов в поисковых системах, и желаемые перспективные алгоритмы.
Звучит странно, но я поясню. Возможно, такое уже где-то и существует, но я про это не знаю. Кстати, это одна из причин сподвигшая меня на написание данного текста. Думаю у каждого было такое, что забывали какое либо слово. Например: вам надо найти в гугле что-то что вы не помните, или просто забыли слово, но зато помните его определение. Например: вы помните, что в растениях есть какой то пигмент зеленого цвета, но как он называется, не знаете, или забыли. Т. е. как бы помните определение из словаря, но не помните само значение. До недавнего времени данная задача была не решима. Но думаю она или уже решена, или это можно сделать. В принципе, от части, тот же гугл с нею может справится, даже есть специальные сайты — вот например loopy.ru/ - идет поиск по маске. Самое смешное то, что пока я писал данные строки и искал в гугле пример, нашел ответ на этот вопрос (вышеприведённый сайт). В принципе, на этом можно было бы остановится. Но интересно есть ли еще подобные сервисы с более расширенными возможностями — которые могут заменять слова синонимами? Допустим, я забыл слово канцерогенны — но помню что это вещества вызывающие рак. И вот я ввожу фразу в поиске по маске — «вещества вызывающие рак» — но оно мне допустим не чего не найдет, т.к. возможно в словаре значению «канцерогены» характерно определение «химические соединения вызывающие опухоль» -- поэтому было бы хорошо если бы был в поиске участвовал алгоритм синонимов, т. е. проверялось возможно ли сочетание подобных слов с сходными синонимами (опухоли и рак, вещества и соединения). От части данные синонимические замены уже используются, типичным примером таких замен есть возможность замены синонимами слов в момент онлайн перевода в гугле. Но именно связи встречающихся синонимов между собой я не встречал.
Теперь главный вопрос. Зачем все это надо?
Но во первых: как я уже писал для поиска каких то уникальных слов. А эти слова сейчас уже нужны не для того что бы перед кем-то блеснуть эрудицией, и вместо «веществ вызывающих рак» написать «канцерогены». Эти слова очень нужны при том же поиске в гугле. Т.к. например: по запросу «вещества вызывающие рак» вы получите результат который удовлетворит среднестатистическую домохозяйку. А вот по запросу канцерогены можете получить совсем другие результаты. Хотя конечно в дальнейшем данный алгоритм можно включить в поиск гугла. И на запрос «вещества вызывающие рак» вы получите результаты в которых встречается словосочетание как и «вещества вызывающие рак» так и «канцерогены». Плавно мы подходим ко второму использованию данных технологий.
Во вторых: создав подобные алгоритмы, а возможно и расширив их (статистический анализ встречаемости слов друг с другом, их значений и близости смыслов) мы подберемся к святая святым — пониманию машинами человека. А то, увы, извиняюсь за грубую и обескураживающую аналогию — «человек как собака — глаза умные, все знает, все понимает, а объяснить поисковой системе чего он от неё хочет — не может». Но это не по тому что мы глупые, а потому что поисковые системы пока еще слишком детерминированы. Но создания данных алгоритмов даст им возможность нас понимать, даже в том случае, если мы чего-то конкретно объяснить не можем. Кстати, это уже частично реализовано в поисковике гугла когда вводишь слово не правильно он предлагает его исправить. А еще (где то я слышал) в гугле реализован индивидуальный подход. Т. е. если вы зарегистрировались он анализирует ваши запросы, допустим вы 10 раз ввили слово «машина», а потом ввели слово «калина», он уже не будет вам искать «калину — ягоду», а будет искать именно «калину — машину». Но на сколько это правильно работает и как точно — не знаю… Данные алгоритмы можно включить не только в онлайн поисковики. Есть практически единственная уникальная программа Лингва (задуманная как переводчик) — конечно кроме неё есть и другие словари, но я сейчас не буду перечислять все её преимущества, остановлюсь лишь на индексировании добавляемых словарей, что тоже иногда бывает довольно полезно. Вот в неё на ряду с прочим можно было бы добавить и вышеописанные алгоритмы. Хотя я уверен, что уже давно ведутся разработки в этом направлении. Но в чем проблема, сложность и почему они широко не внедрены в массы — для меня пока остается загадкой…
П.с. моя не опубликованная статья с ШЖ еще 2013 года .