相似文档检测技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:yukitolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展与存储技术的提高,相似文本大量存在的现象越来越常见。将大规模数据中的相似文档检测出来,对于网络镜像,数据抽取,剽窃检测,垃圾邮件检测,语料库去重等有着重要的应用价值。在各种相似文档检测方法中,数字指纹算法是应用最多的一类算法。该算法速度快,正确率高,适用于海量数据的分析。本文中对数字指纹方法进行了详细的研究,并进行了改进。   本文的工作总结如下:   1.详细讨论了数字指纹类测试方法的各方面问题。包括文档分解策略,数字指纹选取策略和相似判别条件的确定。对实现具体的数字指纹方法具有参考价值。实现了两种不同的数字指纹方法,并对其结果进行对比。   2.对于较短的文本,数字指纹方法效果不是很好。本文针对这项缺陷进行了改进。文中提出了一种多层检测方法,采取数字指纹方法与压缩方法的结合来解决这一问题。实验数据表明,无论在正确率还是召回率上,多层检测算法的效果比数字指纹算法的结果都有所提高。
其他文献
随着软件技术的发展,越来越多的应用系统采用组件技术来提高系统开发效率。企业级应用通常通过集成多种组件形成复杂软件,完成业务功能。各种组件之间存在直接或者间接的依赖关
密钥管理是保证卫星网络安全通信的基础,为卫星网络提供消息加密、认证、以及密钥分配及更新功能,也是目前网络安全研究的重点和难点。本文从对地面网络密钥管理模型的效率、代
随着3G的推广,3G用户数量的不断增长,视频播放将成为移动设备中非常重要的应用。播放视频所消耗的能量占移动设备消耗总能量的比重也将不断增加。而移动设备的功耗控制一直是非
在空间图像传感器技术向高分辨率、高精度的应用领域迈进的同时,图像数据量的增长向空间飞行器数据存储和传输设备的性能提出了挑战。为了解决图像质量和系统瓶颈之间的矛盾,在
随着以数据为中心的超级计算时代的到来,在各种以图为数据结构的应用中数据规模日益增大,数据量的急剧增加使得串行最优路径算法成为应用的性能瓶颈,已不能满足大规模最优路径求
模型检测是一种自动验证有限状态系统的形式化方法。状态爆炸问题是模型检测面临的主要挑战,限界模型检测是缓和状态空间爆炸限制的手段之一。该方法通常对限界模型和性质进行
量子计算是一个方兴未艾的研究领域,普遍认为量子计算机可以解决一些经典计算中无法有效解决的问题。量子计算的发展必将对人类社会产生深远的影响。而量子线路,特别是布尔量子
RAID已经成为存储系统不可缺少的重要组成部分。RAID采用磁盘互为冗余的方法,为数据提供安全性保护。为了节约成本,更多的公司开始选择SATA系列磁盘代替FC和SCSI磁盘构建RAID系
行为识别在普适计算领域有着极大的应用前景,可广泛应用于医疗监护、智能家居/办公、商业服务等方面。其中基于传感器的行为识别因其分布范围广、不具侵扰性等优点,已成为目前
随着网络技术的发展,采用多层架构的Web应用逐渐成为重要的软件发展趋势,Web应用服务器通过简化Web应用的开发管理,已经成为多层Web应用的主流支撑平台。然而由于Web应用服务器