Способ исследования ссылок в научных публикациях обладает широкими возможностями практического применения. Одним из наиболее актуальных направлений, разрабатываемых одновременно с участием авторов данной работы, а также зарубежных ученых под началом Б. Гиппа, заключается в его применении для обнаружения неправомерного копирования. Данный метод дает возможность установить число идентичных ссылок в исследуемых исследованиях, определить их последовательность, степень близости расположения внутри текста, а также вероятность их совместного использования.
Ключевое достоинство рассматриваемого метода перед иными способами обнаружения неправомерных заимствований состоит в его независимости от совпадений на уровне лексики в анализируемых документах. В процессе исследования обрабатываются исключительно перечни используемых источников и их порядок, что позволяет абстрагироваться от основного текста публикаций. Благодаря этому удается обойти проблему сравнения текстов на различных языках (в случаях неправомерного заимствования с переводом) либо полностью перефразированных текстов (заимствование концепций).
Следовательно, данный способ дает возможность выявить сложные формы неправомерных заимствований, включая существенное перефразирование, переводные случаи и заимствование концепций. Наибольшая доля выявленных случаев приходится на копирование и вставку (70%), тогда как неправомерные заимствования с переводом составляют не более 5%, а заимствование концепций — менее 1%.
Применение исследования ссылок позволяет обнаруживать случаи неправомерного заимствования благодаря нескольким ключевым факторам. Прежде всего, перечни используемых источников являются обязательным элементом исследовательских работ, что делает их сопоставление возможным. Кроме того, такие перечни в большинстве случаев открыты для доступа, что упрощает процесс анализа без необходимости работы с полными текстами. Дополнительно сопоставительное исследование ссылок может быть автоматизировано, что делает возможной проверку значительных объемов текстов.
Несмотря на перечисленные преимущества, существуют факторы, осложняющие процесс выявления первоисточников. Одним из них является малое количество ссылок в анализируемом документе, а также преднамеренные действия лица, допустившего неправомерное заимствование. Например, ссылки могут быть изменены в порядке следования, либо их количество расширено благодаря включению оригинальных цитат. Тем не менее в современных условиях существуют технические средства для преодоления указанных сложностей.
После успешного обоснования возможности применения рассматриваемого подхода в качестве вспомогательного модуля в системах обнаружения неправомерных заимствований встала задача автоматизации поиска потенциальных оригиналов при проверке спорных публикаций. Для решения этой задачи использовались методы библиометрии, в частности исследования в области библиометрического сопоставления, предложенные М. М. Кесслером.
Библиометрическое сопоставление определяется как наличие совпадающей ссылки в двух исследовательских работах, что создает между ними тематическую связь. В результате уровень их совместного цитирования определяется числом совпадающих ссылок. Группировка публикаций на основе совпадений в перечнях используемых источников предполагает, что при наличии одной и большего числа совпадающих источников работы можно считать связанными по содержанию.
Технические основы метода, изложенные в исследованиях И. В. Маршаковой, включают несколько ключевых положений. Во-первых, каждая ссылка, использованная в двух научных работах, формирует единицу связи. Во-вторых, совокупность публикаций образует группу, если каждая из них имеет хотя бы одну общую ссылку с исследуемой работой. В-третьих, степень взаимосвязи между анализируемым документом и публикациями данной группы определяется количеством элементов взаимосвязи.
Первоначально метод библиометрического сопоставления разрабатывался с целью автоматизированной систематизации крупных массивов исследовательских работ. Его актуальность с середины XX века остается высокой из-за постоянного роста числа публикаций. Главными достоинствами рассматриваемого метода выступает автономность от языковых и лексических особенностей, а также возможность автоматизированного анализа.
С учетом перечисленных свойств библиометрическое сопоставление может быть применимо для обнаружения неправомерных заимствований, особенно в случаях переводных заимствований. В данной ситуации позднее опубликованная работа с высокой степенью совпадения ссылок с более ранним исследованием подлежит проверке в контексте выявления заимствований.
Во всех текущих программных продуктах, направленных на выявление неправомерных заимствований, необходимо наличие доступа к полным версиям публикаций, так как сравнение проводится на уровне содержательной части. Для более точного обнаружения переводных заимствований также желательно работать с полными текстами, так как алфавитный порядок расположения перечня источников затрудняет анализ последовательности цитирований.
Рассмотренный подход был применен группой иностранных ученых, которые использовали библиометрическое сопоставление для автоматизированной проверки публикаций. Они построили алгоритмы анализа цитирований, что позволило обойти проблему лексических различий в материалах и повысить точность обнаружения неправомерных заимствований.
В ходе моделирования схем цитирования иностранными учеными были разработаны три разных алгоритма: степень библиометрического сопоставления, наиболее протяженная последовательность повторяющихся цитат и метод жадного размещения ссылок. Эти схемы позволили детализировать вероятность совпадения ссылок в различных публикациях с учетом таких факторов, как время появления цитируемых источников, их принадлежность к различным научным направлениям, а также частота их упоминания в других исследованиях.
Создание прототипа автоматизированного комплекса, обеспечивающего сопоставление цитирований в исследуемых материалах на основе взаимодействия с полными версиями, стало важным шагом в развитии технологий обнаружения заимствований. Однако основной сложностью при реализации рассматриваемого подхода выступает обусловленность доступностью полных версий анализируемых трудов. В частности, иностранные ученые использовали специализированные базы открытого доступа, такие как PubMed Central Open Access Subset. Однако большинство коммерческих ресурсов предоставляют возможность получения полных версий на платной основе, что значительно ограничивает анализ, особенно для научного сообщества в России.
Кроме того, существенным препятствием является отсутствие универсального интерфейса для разработки приложений (API) в ряде баз полных текстов, что затрудняет автоматизированную обработку информации. С учетом данных ограничений был предложен альтернативный подход, основанный на анализе библиометрических хранилищ данных, содержащих сведения о публикациях. Эти системы обеспечивают доступ к перечням цитируемых источников, что делает возможным проведение сравнительного анализа без необходимости работы с оригинальными версиями исследований.
В отечественной научной среде наибольшее распространение получили такие системы учета публикаций, как международные базы цитирования Scopus и Web of Science. Доступ к этим платформам обеспечивается большинству университетов и исследовательских организаций в рамках государственных программ финансирования науки. В отличие от полнотекстовых платформ, библиометрические хранилища данных значительно расширяют аналитические возможности, позволяя автоматически формировать запросы для выявления совпадающих цитирований в подозрительных публикациях.
Применение рассматриваемого метода позволяет обнаруживать заимствования в случаях, когда перечень использованных источников в оригинальном документе располагается в произвольном порядке. Однако если ссылки в подозрительной публикации приведены в алфавитной последовательности, последовательность цитирований установить невозможно, что требует обращения к полной версии документа.
На примере платформы Scopus были реализованы два метода извлечения списков публикаций, ссылающихся на одни и те же материалы. Первый подход использует инструмент поиска по пристатейным ссылкам, что позволяет идентифицировать документы с совпадающими ссылками. Аналогичная возможность имеется и в системе Web of Science. Альтернативный подход включает идентификацию источника в хранилище данных с последующим извлечением списка публикаций, ссылающихся на него. Этот механизм может быть также использован в Российской системе научного цитирования.
Одним из значительных преимуществ первого метода является возможность выявления публикаций, содержащих ссылки на источники, отсутствующие в индексируемой системе. В свою очередь, альтернативный подход снижает вероятность ошибок при поиске источника в хранилище данных, что повышает точность результатов анализа.
Процедура поиска заимствований на основе анализа ссылок предполагает несколько последовательных шагов. В первую очередь для каждого цитируемого источника из перечня литературы анализируемой публикации формируется поисковый запрос в библиометрическое хранилище данных. Целью данного запроса является извлечение перечня научных работ, также ссылающихся на данный источник.
Следующим этапом является объединение полученных данных с расчетом числа идентичных источников. В результате формируется ранжированный перечень публикаций, цитировавших те же материалы, что и анализируемая работа. Этот перечень рассматривается в качестве базы для дальнейшего изучения случаев некорректного заимствования. В зависимости от задач исследования отбор публикаций может осуществляться на основе заданного порогового значения — либо по абсолютному числу совпадений (например, более восьми общих источников), либо по относительному показателю (например, свыше 40 % от общего перечня источников анализируемой публикации).
Дополнительно, если в анализируемой публикации ссылки организованы в порядке их появления в тексте, формируется расширенный запрос к хранилищу данных для извлечения списка цитирований предполагаемого первоисточника. В случаях, когда порядок следования ссылок в оригинальном документе также установлен хронологически, проводится детальный анализ последовательности цитирований с целью выявления соответствий.
Система Scopus, например, предоставляет программный интерфейс API, обеспечивающий возможность полной автоматизации данной методики. Запрос на извлечение перечня работ, содержащих ссылки на определенный источник, выполняется с использованием инструмента Scopus Search API. Поиск может осуществляться по различным метаданным, таким как авторство, название, год выпуска материала, название периодического издания или сборника, а также порядковый номер страницы, с которой начинается публикация.
Для минимизации ложных совпадений применяются уточненные параметры поиска. В зависимости от доступности описательных данных использовалась комбинация таких характеристик, как имя ведущего автора, наименование работы, год выпуска и номер начальной страницы. Это позволило существенно повысить точность результатов, практически исключив ошибочные срабатывания системы.
Дополнительно, при необходимости извлечения пристатейного перечня источников возможного первоисточника неправомерного использования на третьем этапе алгоритма формируется специальный запрос с применением Scopus Abstract Retrieval API. В данном случае поиск осуществляется по уникальному идентификатору публикации, такому как идентификатор EID или DOI.
В качестве примера успешного выявления оригинала спорной публикации можно рассмотреть анализ на базе хранилища данных Web of Science. Данный процесс включает обнаружение первичного источника по уникальным идентификаторам научных работ, что позволяет с высокой точностью установить возможные факты неправомерного использования.
Дальнейшее развитие предложенной модели выявления неправомерных заимствований предполагает разработку алгоритмов, которые будут интегрированы в программные решения для автоматизированного обнаружения исходных материалов. Внедрение подобных технологий позволит не только повысить точность выявления заимствований, но и создать эффективные механизмы визуализации результатов анализа.
Реализация и последующее внедрение аналогичного комплекса в масштабах научного сообщества окажут значительное влияние на снижение объема неправомерных заимствований, способствуя при этом росту оригинальных исследований.
Дополнительно, при необходимости извлечения пристатейного перечня источников возможного первоисточника неправомерного использования на третьем этапе алгоритма формируется специальный запрос с применением Scopus Abstract Retrieval API. В данном случае поиск осуществляется по уникальному идентификатору публикации, такому как идентификатор EID или DOI.
В качестве примера успешного выявления оригинала спорной публикации можно рассмотреть анализ на основе хранилища данных Web of Science. Данный процесс включает обнаружение первичного источника по уникальным идентификаторам научных работ, что позволяет с высокой точностью установить возможные факты неправомерного использования.
Дальнейшее развитие предложенной модели выявления неправомерных заимствований предполагает разработку алгоритмов, которые будут интегрированы в программные решения для автоматизированного обнаружения исходных материалов. Внедрение подобных технологий позволит не только повысить точность выявления заимствований, но и создать эффективные механизмы визуализации результатов анализа.
Реализация и последующее внедрение аналогичного комплекса в масштабах научного сообщества окажут значительное влияние на снижение объема неправомерных заимствований, способствуя при этом росту оригинальных исследований.
Другие наши публикации
Комплексное применение методик Антиплагиат ВУЗ и КонтрПлагиат в борьбе с академическим плагиатом
Семантический анализ в системах антиплагиата: принципы и технологии
Эффективные методы антиплагиат выявления текстовых совпадений в академических работах
Формирование предпринимательских компетенций в условиях информационной неопределенности