总样本数据70。
使用率最高的平台是维普,同等风险准确率最高。
查重准确率最高的是淘宝知网,但是风险不可控,使用率仅次于维普。
参考性结论
淘宝知网准确率最高,有一定的安全风险。
样本观测维普的查重结果一般会高于学校知网(92.8%)。
大雅查重计算方式和学校知网差异很大,不具有参考意义。
具体研究方法:
利用其他平台查重数据和学校知网查重结果,通过统计计算相关性系数、斜率、截距和方差。
结果如下:
相关性最高的是:pass-paper,但是由于样本太少指导意义,其次是淘宝的知网。
淘宝知网有效样本数据:27
淘宝知网
淘宝知网查重平均值vs学校知网(4.41% vs 3.93%)
相关性系数:0.49
标准差:3.9%
维普
维普有效样本数据:27
维普查重平均值vs 学校知网(5.61% vs 2.92%)
相关性系数:0.08693 (很低)
标准差:1.6%
相关性系数如此低,只能说明两者之间的线性关系很弱,不能说明维普查重准确性和稳定性。
参考性结论:维普的查重结果>学校知网查重率(解释范围:92.8%,不保证7.2%不发生)。
Paper-pass
Paper-pass有效样本数据:10
Paper-pass查重平均值vs学校知网: 9.6% vs 3.66%
相关性系数:0.538
标准差:2.8%
相关性系数在几个平台中最高,但是样本数据太少,指导意义低。
万方
万方有效样本数据:11
万方查重平均值vs学校知网: 3.86% vs 2.91%
相关性系数:-0.35
标准差:2.6%
相关性系数为负,个别数据对样本性质影响很大,指导意义低。
大雅
大雅有效样本数据:7
大雅查重平均值vs 学校知网: 20.31% vs 3.37%
参考性结论:从样本看大雅的查重有很大的问题,主要集中在语义查重比对方式和学校知网有很大的不同。
待研究
本设想是用同时使用淘宝知网和维普的数据和学校知网的数据做二元回归,得出模型会更加稳定,方差会更小,建立的模型会更加有指导意义。很不巧合的是,使用淘宝知网和使用维普的数据重合的部分很小,不难理解使用维普的同学是厌恶淘宝知网的风险忍受一点误差,使用淘宝知网的同学是为了准确性忍受一点风险。