В настоящее время пользователи могут вводить свои предпочитаемые ключевые слова на веб-сайтах для поиска документов (например, Google Scholar и Baidu Academic) для поиска интересующих их работ, а затем эти веб-сайты будут рекомендовать им соответствующие документы. Чаще всего, документ содержит лишь частичные ключевые слова, которые интересуют пользователя, поэтому система, рекомендующая бумагу, должна возвращать набор документов, которые в совокупности охватывают все ключевые слова, запрашиваемые пользователем.
Пользователь получает набор ключевых слов, включая прогноз ссылок, критерии взвешивания, анализ данных и сеть цитирования. Затем веб-сайты, занимающиеся поиском документов, обычно рекомендуют пользователям некоторые документы, основанные на вышеперечисленных ключевых словах.
Как известно, ключевые слова статьи могут представлять только темы или темы статей, поэтому, рассматривая ключевые слова только в процессе поиска, можно найти набор статей, которые принадлежат к различным областям исследований или фактически не коррелируют, что не удовлетворяет первоначальным требованиям пользователя к глубоким и непрерывным исследованиям.
К счастью, сеть цитирования документов, которое изображает цитируемые взаимосвязи между различными документами, обеспечила многообещающий способ моделирования взаимосвязей между документами с точки зрения широты и глубины взглядов. Тем не менее, существующая сеть цитирования документов все еще сталкивается с большой проблемой, т.е. каждая статья существующей сети цитирования документов имеет незначительные цитируемые связи с другими документами, так что коррелирующие связи между документами также очень редки.
Учитывая эту проблему, был предложим новый подход к прогнозированию связей для оптимизации существующей сети цитирования документов. Кроме того, многие предыдущие исследования доказали, что прогнозирование связи является лучшим решением различных задач оптимизации сети.
Говоря более конкретно, прогнозирование связей пытается оценить вероятность существования связи между двумя узлами, поскольку узлы приписываются информации и сетевым структурам. Кроме того, при использовании нашего предложения о построении новых связей в работе (т.е. коррелированных связей), мы также учитываем эффект самоцитирования авторов и потенциальные взаимосвязи между работами (т.е. эти коррелированные связи не включаются в сеть цитирования работ, поскольку их время публикации близко).
Был предложен новый подход к прогнозированию связей для построения новых графиков связей. Это предложение учитывает широкий спектр факторов, влияющих на корреляцию между статьями, таких как время публикации статей, ключевые слова и авторов статей. Кроме того, этот подход прогнозирования связей учитывает сетевую структуру сети бумажного цитирования, что делает прогнозируемые результаты более обоснованными и убедительными.
Была оптимизирована существующая сеть цитирования статей путем снижения негативного влияния преднамеренных самоцитат со стороны частичных авторов.
Наконец, на реальных бумажных массивах данных проводятся обширные эксперименты, чтобы продемонстрировать реальные возможности нашего метода решения проблемы сетевой спарритизма.
Прогнозирование соединения - это значимое исследовательское содержание и подход к оптимизации различных сетей. Насколько нам известно, существенным фактом прогнозирования соединения является то, что атрибуты узла соответствуют известной информации и особенностям сетевой структуры, поэтому методы прогнозирования соединения могут легко найти недостающие звенья.
Кроме того, эти методы могут создавать новые связи (т.е. коррелированные связи) между двумя узлами без связи. Таким образом, прогнозирование связи может эффективно решить основную проблему нашего предложения, т.е. решить проблему разрозненности в существующей сети цитирования документов.
В настоящее время прогнозирование связей значительно продвинулось вперед и играет важную роль во многих областях исследований. Например, новые друзья по прогнозированию связей можно найти в социальных сетях
Методы прогнозирования взаимосвязей можно разделить на три категории: методы, основанные на сходстве, подходы, основанные на максимальном правдоподобии, и вероятностные методы. Насколько известно, методы, основанные на сходстве, могут быть использованы и для крупных сетей, поскольку они позволяют вычислять баллы сходства между двумя узлами. Хотя подходы с максимальной вероятностью могут получить конкретные параметры, а вероятностные методы могут предсказать недостающие звенья с помощью обученной модели, подходы с максимальной вероятностью и вероятностные методы не могут избавиться от широкомасштабных сетей.
Как правило, подход, основанный на сходстве, также можно разделить на две категории: методы сходства на основе сетевой структуры и методы сходства на основе атрибутов узлов. Методы сходства, основанные на атрибутах узлов, в основном фокусируются на атрибуте узла к информации о нахождении подобных узлов, поэтому эти методы являются важным способом формирования пар узлов.
Кроме того, эти методы также решают проблему холодного запуска для исследования прогнозирования соединений.
Также, метод сходства на основе сетевой структуры распределяет баллы сходства по парам узлов в соответствии со структурными особенностями сетей. В настоящее время метод схожести сетевых структур в основном состоит из четырех категорий: местные подходы, глобальные подходы, квазилокальные подходы и подходы на основе сообщества.
Здесь в основном обращают внимание на локальные подходы, основанные на сходстве, потому что он вычисляет оценки сходства двух узлов без соединения на основе соседних структурных особенностей узлов; кроме того, некоторые общие индексы локальных подходов могут использоваться в крупномасштабных сетях, например, индекс общих соседей (CN), коэффициент Жакара (JC), индекс Адамика-Адара (AA) и индекс распределения ресурсов (RA).
Многие из исследований по предсказанию канала сосредоточены только на невзвешенных сетях, но на самом деле, многие сети реального мира могут быть взвешены.
Прогнозирование того, построят ли два взаимосвязанных документа коррелированные связи в существующей сети цитирования документов, является важной задачей анализа, которая рассматривается как проблема прогнозирования связей. Для поиска и построения коррелированных связей в существующей сети цитирования был предложен новый подход к прогнозированию связей.
Новый подход к прогнозированию связей не только имеет преимущества прогнозирования и построения коррелированных связей, но и помогает смягчить существующую разрозненность сети цитирования. Кроме того, также используется сочетание рабочего времени, ключевых слов и информации авторов, чтобы уменьшить эффект от самоцитирования.
Поскольку значение взвешивания пары узлов в бумажной сети цитирования получается из расчета информации о ее атрибутах, экспериментальные результаты могут максимально точно отражать фактическое значение взвешивания пары узлов. Наконец, обоснованность такого предложения подтверждается набором реальных данных.