Найти тему

中国学生如何提高文章的独特性并通过反抄袭检查

2013 年,有人向 “科学世界 ”出版社出版的一份期刊投稿。在检查过程中,发现文件中有额外的隐藏文本,使用标准文本编辑应用程序无法看到。这些隐藏文本比原稿要长得多,而且由一连串不连贯的单词组成,没有任何逻辑意义。

为了找出这一异常现象的原因,我们进行了许多调查,其中一项调查揭示了文件中隐藏文本的可能目的。对手稿的可见部分和隐藏的无意义文字都进行了单独的原创性检查。分析结果显示,手稿的可见部分几乎完全抄袭了另一位作者之前发表的作品。相反,隐藏的不协调文字则完全是原创的。

在对作者提交的原稿进行检查后发现,独特的不协调文字似乎是为了 “稀释 ”原创性测试的结果。这一点非常重要,因为即使完全可视化的文字是从其他来源借来的,但由于包含了隐藏部分,原创性的总体比例仍然是可以接受的。在接下来的几年中,出版社还收到了其他几份稿件,这些稿件使用了各种技术,旨在歪曲文本原创性评估的结果。

类似的情况也发生在许多来自中国、印度、哈萨克斯坦的留学生身上。

学生们为了提高研究论文的原创性和避免反抄袭系统的问题,往往会采用各种不诚实的方法。最常见的方法之一是使用特殊程序,即所谓的 “改写程序”。这些程序通过改变句子结构,自动用同义词替换单词或重新排列短语。虽然 MSU 等检查系统可以 “作弊”,但以这种方式生成的文本往往无法阅读,毫无意义。教师很容易识别出这类作品,从而采取纪律处分。

另一种规避反抄袭(如 DFU)的方法是添加 “隐形 ”字符或更改文本编码。学生在字母之间插入特殊字符或空格,这些字符在正常阅读中并不可见,但却改变了文本的算法结构。虽然这样做提高了唯一性的比例,但这种伎俩往往会在教授仔细检查时被发现。

此外,一些学生还使用提供 “独特性增强 ”的服务。这些网站承诺绕过 KFU 等反抄袭系统,对文本进行处理,使其难以被识别为抄袭。然而,这种方法往往违反科学道德原则,使用这种方法会导致严重后果。

遗憾的是,试图规避反抄袭的做法会产生低质量的学术文章,违反学术道德规范。学生们应该认识到,这些方法只是权宜之计,从长远来看,可能会给他们的学术生涯和整个科学界带来负面影响。

对文献的全面回顾表明,针对剽窃检测问题已经进行了大量研究。然而,针对规避剽窃检测系统问题的研究显然还不够。A.V. Eras 和 D.V. Luchaninov 在研究中强调了提高原创性的技术方法和改写概念[15]。值得注意的是,在学术讨论中,改写主要由版权律师和记者进行调查,很少有学者将其称为不道德的出版行为。

由于缺乏学术研究和实践活动来识别规避抄袭检测系统的企图,这促使《科学世界》的编辑们加大力度识别规避抄袭检测的方法,并制定检测策略。

遗憾的是,可以说这种做法在学生和学术文章(从论文、学期项目、最终资格论文到学位论文)作者中仍然很常见。在学术界,这种现象通常被称为 “剽窃检查绕过”,在学术界和出版界则被称为 “绕过”、“技术绕过 ”或 “逃避剽窃检测的策略”。
它讨论的是在使用不同的评估机制进行分析时,对文本文档进行修改以歪曲独特性评估结果的行为。其目的是将借来的内容冒充原创内容。这种修改通常是隐蔽的,因为通过文本编辑器访问文件时,对文件所做的修改通常是不可见或不容易辨别的。可以使用各种技术进行此类修改,包括使用文本编辑软件、专门应用程序或在线平台。

对这种现象更准确的描述是指改变文本唯一性检查结果的技术方法。之所以将这些方法归为技术方法,是因为除技术方法外,还有基于文本转换的策略,即通常所说的改写。从作者的角度来看,“规避 ”这个行之有效的术语可能并不完全恰当,因为它主要指的是扭曲检查结果,而不是简单地绕过检查结果。此外,虽然 “反抄袭 ”一词已被广泛接受,但必须强调的是,它指的是对不同工具和系统产生的结果进行修改。尽管如此,为了保持清晰,同时避免不必要地将与这一现象相关的术语复杂化,建议沿用出版界公认的通用清晰术语,将这一行为称为 “反抄袭规避”,将对文件的修改称为 “规避技术”。

之所以存在规避技术,是因为 DOC 和 DOCX 文件格式错综复杂,允许在文本编辑程序中直接使用多种格式类型、应用样式以及整合表格、公式、图像、图表、数字和图形。通过操作文本文件的标记语言,特别是基于 XML 的 DOCX 格式,可以为许多参数赋值,这是传统编辑无法实现的。举例来说,如果给 “字距 ”参数指定一个负值,就会导致字符相互重叠。虽然文本编辑器可能不允许这样的值,但使用标记编辑功能编辑的文档在显示时会准确反映这些参数。重要的是,不会生成错误通知或警告。遗憾的是,这种情况为各种操纵创造了空间。

能够修改文本文件的工具、有关规避策略的信息以及众多提供付费甚至免费反剽窃规避服务的网站,都为反剽窃规避方法的传播提供了便利。决定使用规避方法来操纵文本完整性检查结果的无良作者可以选择以下几种途径之一。其中包括通过在互联网上搜索程序和指南来自行修改文本,使用从 Microsoft Word 宏到定制应用程序的各种专用软件,或使用规避服务。提供此类服务的网站非常多,修改文本文件的价格从自动处理的几十个货币单位到 “专家 ”手工操作的数千个货币单位不等。

随着时间的推移,文本唯一性检查系统的开发者已经为自己的产品配备了检测特定规避方法的功能。反过来,提供反剽窃规避服务的人也有既得利益,要确保他们的方法始终有效。这就造成了规避策略不断演变的循环,从而无法对这些方法进行准确分类。不过,为了提供示例,我们将尝试列出最常见的方法。由于文本检查系统和遍历方法的不断发展,许多方法实际上已不再使用。过时的方法包括:用外观与原文相似的其他字母替换文本中的字符、将文本片段转换为位图图形、将文本叠加到图像上,以及通过将字体颜色改为白色或缩小字体大小来隐藏文本片段。

不过,目前常见的修改可以分为几类。其中包括隐藏字符插入,即在文本中插入字符以取代空格或嵌入单词。在文字处理器中查看文档时,这些字符会通过各种技术变得不可见。尽管如此,这些无法察觉的字符仍会在唯一性评估中被考虑在内,从而导致评分偏差。还有一种方法是加入隐形文字,其原理与上例相同,只是在文本中加入了整个单词。此外,加入隐藏文本片段是指在文件中插入大块文本,使文本编辑器无法检测到,但评估系统仍可识别。最后,字体篡改是指将文本中的字符替换为专门准备的字体中的字符,这种字体看起来与原始字符完全相同,但对文本唯一性评估系统来说却表达了不同的含义。

目前,所有使用的方法可分为两大类。第一类是通过添加单词或字符来修改文本,同时在文本编辑器中查看时保留视觉结构。第二类是在文件中隐藏嵌入大量独特文本,目的是降低借用文本部分在唯一性检查过程中的 “权重”。在 2017 年至 2019 年期间,《科学世界》发现了 24 篇包含技术处理的文章,这些技术处理扭曲了由此产生的文本独创性检查结果。有关这些文章的数据已在 2019 年的借用检测会议上公布。

虽然文章数量不多,无法从中得出任何明确的结论,但提出一定数量的假设似乎是完全 可以接受的。文章按知识领域的分布情况如下: 15 篇涉及教育学,8 篇涉及经济学,只有一篇来自技术科学。考虑到这些数字与这些科学领域提交给出版社期刊审阅的文章数量并不一致,可以推断从事 不同学科工作的研究专家容易在不同程度上使用文件修改,这反过来又扭曲了原创性检查的结 果。

这些文章的作者结构如下: 2 名本科生、4 名硕士生、4 名博士生、7 名讲师、16 名博士生和 3 名博士生。尽管在工作过程中,出版社的工作人员形成了大学生和硕士生是 “风险群体 ”的观点,但新的数据表明,这一判断并不完全正确:事实上,使用规避反抄袭方法的作者中最多的一类是博士生。

对文章中检测到的技术方法进行分类后得出以下统计结果:9 篇文章包含插入和隐藏文字的内容,6 篇文章采用插入和隐藏符号的方法,4 篇文章在公式区使用插入和隐藏文字的方法,2 篇文章插入和隐藏大量文字,2 篇文章用符号或其他字母代替字母,1 篇文章在页脚插入隐藏文字。作者使用的文档格式如下:18 篇文章使用 DOCX 格式,6 篇文章使用 DOC 格式。

从实用角度来看,对包含规避反抄袭方法的文章进行分析,以及 “反抄袭 ”系统的检查结果是最重要和最有趣的方面。2017 年,在“科学世界”出版社检查的文章中,“反剽窃 ”系统未能发现存在规避方法。这些规避方法的检测得益于出版社自己开发的特殊技术。在 “2018 年借用检测 ”会议上 反剽窃代表介绍了提高此类方法检测能力的工作。2019 年,在检查上述文章时,Antiplagiar 系统对使用规避方法的文本进行了相当高水平的检测。

在分析的文章中,13 篇文章检测到规避行为,5 篇文章被标记为可疑,6 篇文章未检测到规避行为。值得注意的是,有4 篇文章没有被标记为可疑文章,尽管这些文章的真正独特性已被证明。这说明,即使没有记录规避方法本身,规避方法的存在也不会影响检查结果。因此,反剽窃系统在 24 篇文章中筛选出了 22 篇。

用于识别文本中规避技术的方法仍然是研究关注的对象。自2013年以来,科学世界出版社采用了四种不同的方法来解决这一问题。第一种方法已不再使用,它基于在文本编辑器中直接操作文本。它涉及改变文本特征,如字体大小和字符间距,使隐藏的字符和单词显现出来。然而,由于屏蔽技术在不断改进,这种方法被证明是无效的。即使在一个文档中可以检测到变化,也不能保证在另一个文档中也能成功。

当第一种方法显然不适合这项任务时,有人建议检查文件的 XML 标记。分析结果表明,标记层面的变化可能预示着隐藏元素的存在。特别是,字符间距参数的负值通常表示隐藏的单词,而没有标记的长文本片段可能表示存在隐藏的数据集。此外,用字符代码替换字母也表明可能存在替换。这种方法比较有效,因为它能够识别某些规避技术及其在其他文件中的重复使用。不过,它的局限性在于 XML 标记比可见文本大得多,因此难以分析。

要成功搜索 XML 标记,不仅需要了解标记结构,还需要区分正常元素和可疑元素的能力。即使掌握了这些知识,要手动检测出隐藏的操作也非常困难,尤其是在不知道要查找什么的情况下。因此,这种方法只适用于之前已被识别为可疑的文件。

第三种方法的基础是,使用专业软件进行文本识别,可以将原始文本与可能的隐藏内容分离开来。这种方法是将文本转换成图像,从而消除隐藏篡改的可能性。不过,尽管这种方法效果明显,但它并不能回答原始文件中是否存在隐藏内容的问题。为了解决这个问题,在识别前后都要检查文本的唯一性。然而,由于文本识别的特殊性,以及存在图形元素、表格和图表,软件可能无法正确处理,因此识别结果往往存在差异。

在实验过程中,对 100 篇科学文章进行了检查,以比较使用 “AntiPlagiarism.NET ”软件对原文和已识别文本进行唯一性检查的结果。结果显示,20 篇文章的结果完全相同,27 篇文章的结果相差 1%。其余文章的差异从 2% 到 34% 不等,原因是识别质量不同,以及文本中存在表格和数字等复杂元素。

因此,所讨论的每种方法都有其优势和局限性,但没有一种方法能绝对准确地识别文本遍历技术。

通过对验证结果差异最大的两个文件的数据进行仔细分析,发现了规避反剽窃系统的技术。这些结论是通过对 XML 标记的详细检查得出的,证实了规避技术的使用。对其他得分较高(在 7-10%之间)的文件进行的额外检查显示,结果偏差是由于识别过程中遇到的错误造成的。尽管使用这种方法检测出了上述所有 24 篇文章,但由于这种方法存在一些缺点,因此应予以慎重考虑。这些缺点包括需要反复检查同一文本,以及当数据库中没有或公开来源中没有所分析的材料时,就会缺少结果。还应提及的是,由遍历技术引起的微小变化往往无法检测到,因为这种操作只会导致结果出现微小偏差。

第四种方法基于这样一个假设,即原始文件和被识别文件的唯一性检查结果之间的显著差异表明存在重大的文本修改。问题是:如何准确检测这些修改?现代软件提供了各种比较文件的工具,但规避反抄袭问题有许多具体方面。如前所述,DOC 和 DOCX 文件格式对于自动处理而言相当复杂,而且尚未发现规避技术的使用与数据量(无论是字符数还是字节数)之间存在一致的关系。最终,在使用微软 Word 的 “全部修正 ”模式下对文件进行比较时,差异才逐渐显现出来。因此,反抄袭规避技术可以通过一些特征来识别,其中最显著的特征是重复的单词或单词片段,以及文档结构中的各种人工痕迹。

图 1 显示了重复词效应的一个例子,即在比较文件时,微软 Word 会检测到相同的文本片段,尽管从视觉上看它们似乎是不同的(文本元素用彩色标记下划线或划掉)。图 2 显示了一个人工痕迹检测的例子,检查结果显示存在分层文本,这是规避的迹象之一。

当然,还有其他规避选项,但最近的证据表明,这种方法是检测违规行为的最有效方法,尤其是在使用多个具有典型规避技术的文件进行训练的情况下。目前正在积极开展自动检测这类技术以及开发大规模检查工具的工作,这对分析已公布的材料具有特别重要的意义。这样不仅可以及时发现违规行为,而且一旦发现使用规避技术,还可以撤回科学文章。

作者认为,规避反抄袭是最严重的违反出版伦理的行为,因为这意味着打着自己成果的幌子盗用他人成果。发表他人的成果是一种不可接受的做法,而试图隐瞒这一事实则会加剧这种违规行为。遗憾的是,许多作者并没有意识到规避反抄袭系统是一种不可接受的行为。这可能是由于对文本检查系统的原理和问题的本质缺乏深刻理解。矛盾的是,在通过电子邮件与一些作者交流时,发现他们中的许多人将文本原创性视为某种形式上的指标,可以肤浅地加以处理。

一些大学和出版社的形式化检查方法造成了更多的混乱,作者只关注“原创百分比”,而不去研究检查结果,也忽视了报告的内容。作者只是为了 “以防万一 ”地处理自己的文章,却没有意识到这违反了科学道德规范,这种做法导致了不公平工作方法的蔓延。与此同时,一些提供反剽窃规避服务的网站将自己的服务说成是可以接受的、“诚实的”,这就造成了对此类行为正常性的错误认识。

因此,关键的任务仍然是不仅要改进检测规避技术的方法,还要对科学出版物的作者进行教育。