基于统计原理的甄别算法的研究与应用

来源 :南京工业大学 | 被引量 : 0次 | 上传用户:qq8520963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为遏制当前校园内盛行的学生为完成作业相互抄袭之风,我们开发了一个论文甄别系统。这个系统利用现有的网络搜索引擎下载与学生上交的论文相关的文章,并自动把学生论文和下载到的文章进行相似程度分析以判断学生论文是否有抄袭行为。由于该系统可以在短时间内下载,甄别大量论文,因此大大提高了用手工从网络下载论文,人工判断的效率。本课题研究的线程池技术和应用回归分析中显著性检验原理而设计的一个文本甄别算法是这个论文甄别系统的核心技术。为高效下载网络中的相关论文,本课题以《Java多线程设计模式》(铁道出版社结城·浩著)介绍的一个通用线程池为基础,用C#实现了一个专用线程池,并针对论文甄别系统的具体需求增加了动态地改变线程池中线程数量的管理功能,可以根据任务轻重自动调节系统负载,使系统始终保持高效率运行。应用回归分析中显著性检验原理而设计的一个文本甄别算法是本课题的最大亮点。它巧妙地借鉴了回归分析中用以检验拟合模型是否符合实际模型的显著性检验原理的思想,将其应用于分析相关关键词在学生论文和下载文章中分布的差异。利用统计分布的χ2分布函数,构造出二个近似服从χ2分布的统计量。使用这些统计量分析相关关键词在源论文和下载论文中分布的差异,以此推断两篇文章的相似度。最后,用三篇文章检验这个算法。检验结果证明这个算法具有很强的实用性。
其他文献
聚类是人类一项最基本的认识活动,也处理数据的重要工具,在许多领域被广泛地应用。该文主要侧重于在模糊关系型数据库中进行聚类分析的研究,针对现有方法存在的问题,提出一些新方
虚拟仪器(VirtualInstrument,简称VI)是在计算机基础上通过增加相关硬件和软件构建而成的、具有可视化界面的仪器。虚拟仪器突破了传统仪器在数据处理、显示、传送、存储方面
互联网技术的发展已经在逐渐的改变人们的生活,社交网络的兴起使得人与人之间的联系更加方便,同时一些商家借助于网络,利用一些名人的“口碑效应”进行某产品的推广,使得该产
石油勘探开发是石油工业的重要部分,直接决定了石油产量,在石油勘探开发过程中,会采集到大量的三维地震数据。 本文根据三维地震数据特点,围绕海量数据的读取和运算、数据的管
防火墙与入侵检测作为保障网络安全的重要技术手段被广泛应用,但现有的安全方案往往将防火墙与入侵检测系统分开单独使用,这样不能满足网络安全整体化、立体化的要求。 实现
当今信息技术发展迅速,为无线传感器网络(WSN,wireless sensor network)的发展创造了良好的环境。传感器网络有着广泛的应用,并存在大量的研究,WSN已慢慢融入到人类生活的各
现有的网络编码与P2P技术结合的数据分发方案对网络性能有所限制,若信源节点以网络的组播容量来确定数据的发送速率将会导致大量链路空闲浪费网络资源,然而源节点的发送速率
科技的进步和信息技术的发展使世界进入了前所未有的全球化时代,未来企业要想在竞争中立于不败之地,必须能够纵观历史和洞察未来趋势,以快速做出决策,而快速决策来自于对市场、客
无线传感器网络用于收集和传输环境数据,由大量无线的低功耗小传感器组成。这些微小的传感器节点具有数据处理、通信和感应部件。通常,传感器节点的价格都很便宜,以便于能够
虚拟机(Virtual Machine,VM)是相对我们平常所用的实际的计算机而言的一个概念,它是一个假想的模拟实际计算机进行工作的软件系统,同真实计算机一样,虚拟机有自己的中央处理器,指