技术标雷同性分析的原理是什么

【信息来源:】【信息时间:2018-07-16  阅读次数: 【字号 我要打印】【关闭

技术标雷同性分析是“基于段落词频统计的论文抄袭判定具体算法”
步骤1:对查询论文进行分词,然后将各词分别放人以段落为单位建立的若干数组和Hashtable中(使用 Hashtable主要是提高检索速度,其中键代表词,值代表词 频),在放入过程中去除无关紧要的词,如叹词、虚词
步骤2:.设定一个阈值(0.2),将待查论文的每个数组与查询论文的每个数组进行比较,若有重复则登记匹配的个数。每轮循环比较结束,若匹配词频总数 超过阈值则疑似段落抄袭,记录相似度最大的那个,否则认为没有抄袭。直至所有段落比较完毕。
步骤3:统计所有疑似抄袭段落匹配的词频数总和占抄袭论文与待查论文总词频数的比例,若任何一个超过指定的阈值(0.15)则认为论文存在抄袭。
步骤4:根据设定的阈值,输出两个文件的相似比例