一场技术的博弈：查重系统vs过关“妙招” --科技日报数字报

实习记者翟冬冬

又是一年毕业季，“论文月”也随之到来。经过开题、中期检查之后，为了遏制论文造假，不少高校会借助文献检测系统来判断论文是否涉嫌抄袭。

为了帮助毕业生顺利“过关”，一些声称可降低重复率的“锦囊妙计”也在网上流传。日前，微信公众号“毕业有道”推出《了解知网查重原理，论文重复率3%以下也很容易》一文，其中介绍了变化措辞、翻译替代、图片变换等“降重”方法。

那么，这些“偏方”真的管用吗？

“偏方”会被系统迭代掉

随着计算机技术与互联网技术的发展，越来越多的文献信息被数字化。这些电子资料为工作、学习带来巨大便利的同时，也为抄袭、剽窃等行为提供了“方便”。

当前，论文相似性检测系统是反剽窃最有效的技术手段之一。国内的论文检测系统众多，其中中国知网（以下简称“知网”）的学术不端文献检测系统、北京万方数据股份有限公司（以下简称“万方”）的论文相似性检测系统和重庆维普资讯有限公司（以下简称“维普”）的论文检测系统是市场占有率较高的三大检测系统。

谈及这些系统的检测原理，中国科学技术信息研究所副研究员张英杰告诉科技日报记者，虽然各家的检测系统在细节设计上有所不同，但均基于相同的技术原理。它们都是将论文进行分解，而后对比资源库，并利用相关算法进行匹配度检测。

“匹配度检测也可称为文本片段比对，简单来说就是检测论文内容是不是与资源库中的内容重复。”武汉大学信息管理学院副教授胡吉明说，论文上传系统后，系统一般会根据文章目录把文章“切”成几大段，之后再将大段“切”成小段，将其与资源库中的文本内容进行比对。如果这一小段内容和数据库中的某个文本重复，那这部分内容就会被判定为涉嫌抄袭。

维普相关工作人员告诉科技日报记者，各家检测系统在设计上都尽可能仿照人的阅读方式，实现以机器代替人工，以求提升检测的精准度。

针对网上流传的“偏方”，多名业内人士向科技日报记者表示，系统设计的初衷是贴近人的阅读方式，以这个目标为设计出发点，随着系统升级，“偏方”自然会被迭代掉。据维普相关工作人员介绍，在算法上他们采用了多重防护机制，从而杜绝用“偏方”蒙混过关的情况出现；同时他们提供了“格式分析报告”，详细列出了送检文档中“图片”“空格”的数量，可供指导教师进行人工审查。

算法差异致反馈结果不同

当前，针对不同学历阶段，高校对毕业生论文的重复率要求也不同。本科生毕业论文的重复率一般要求在30%或20%以下，硕士毕业论文则提至15%，博士研究生则规定要在10%甚至5%以下才算合格。现阶段论文检测一般由学校或学院组织，专业机构提供论文检测服务，相关检测数据或结果将会在系统前端呈现给学校。目前知网尚未开通个人检测服务，而万方、维普已开设个人检测窗口。

在送审前，不少应届生都会进行“自检”，依照学校对重复率的要求做进一步修改。在“自检”时不少学生会困惑，为何在两家机构检测出来的相似度一个是15%，一个是20%？

维普相关工作人员向科技日报记者介绍，由于各家运用了不同的算法模型、基于不同的开发平台，因而造成相似度数值的差异。

各家的差别有多大呢？他打了个比方，如同苹果iOS系统和安卓系统一样，它们是按照不同思路设计出来的，各家的算法没法做同类对比。目前这方面没有相应的国家标准，各家根据自身的产品设计思路和原理模型提出了检测方法，于是就有了一定的差异。

目前，市场上存在多种检测技术，如基于字符串比较的方法和基于词频统计的方法等。“各家公司在技术上差距不大。”万方相关人员向科技日报记者介绍，不同算法可理解为不同的重复率判断方式。比如说，一篇文章中的某段话算不算抄袭，可能A算法认为80%的一致率是抄袭，B算法则规定70%的一致率是抄袭。“当然每种算法都有很复杂的计算模型，并没有例子中说的这么简单。”万方相关工作人员说。

“资源库也很重要。”张英杰表示，作为一个论文相似性检测系统，其资源库收录资源类型是否齐全、学科是否齐全、年限是否足够长、资源数量是否足够大等因素，都会对检测结果产生影响。从学科上来看，三家检测机构都已做到全学科收录；从收录文章的种类和数量来看，知网更具优势，万方在一些学科如医学领域有独家收录的文章，维普则在中文期刊数据库建设方面起步较早。

抄袭判定标准有待更新

对于抄袭的定义，随着检测技术的发展也在改变。

南京大学信息管理学院教授苏新宁介绍，现在的抄袭可分为两种，一种是文字的抄袭，另一种是内容的抄袭。在论文检测技术发展的早期，一些作者会通过变换他人文章中词语的方式躲避检测，“这在早期的软件中不容易被查出来。”苏新宁说，但随着内容检测技术的发展，这种做法已经不灵了。

现在的内容检测并不是对文章进行逐字逐句的检测，而是用文章中出现的关键词和资源库中文章的词语作对比。如果这个词和资源库某篇文章的词大量相同，虽然顺序不同，但在检测系统中还是会被认定为相似。苏新宁举例说，如“我评价了这个问题”和“我对这个问题进行了评价”这两句话，如果后面的内容也都是这样颠倒语句，同样会被认定为是相似。也就是说，现在的检测系统除了对文章语法层面的词汇、句法结构进行分析，也会在一定程度上进行语义层面的检测。

说到相似和抄袭的不同，苏新宁坦言，现在的检测系统确实还存在一些局限。比如，对于一些公理性质的文字，系统也会判定为重复。如“一带一路”这类词如果在文章中多次出现，是否该被判定为抄袭，这值得商榷。

谈及对外文文献的比对检测，多位专家认为，我国目前在外文检测技术方面还比较薄弱。苏新宁介绍，一方面是因为外文文献数量大、种类多，相关资源库的建设工作尚处起步阶段。另一方面，中文和外文在语法和语义方面都存在较大差异，如何判定为抄袭也是个问题。但现在多数的期刊评审专家，一般都阅读过大量自己领域内的外文文献，对于送审论文是否抄袭了外文文献，会有自己的判断。