基于Low-IDF-SIG的句子重复检测

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：xieming15898575325

【摘要】

：

随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑

【作者】

：

俞昊旻张玥张奇黄萱菁

【机构】

：

复旦大学计算机科学与技术学院

【出处】

：

中文信息学报

【发表日期】

：

2011年01期

【关键词】

：

近似重复检测特征抽取 Low-IDF-SIG

【基金项目】

：

国家自然科学基金资助项目(61073069,61003092);国家高技术研究发展计划(863计划)资助项目(2009AA01A346)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。

其他文献

炎夏读禊帖、换鹅经及玉版十三行(五首)

期刊

十三行

教学改革中多媒体教学的应用

教学改革中结合多媒体教学,教师的主导作用和学生的主体作用应得到充分发挥,多媒体的辅助作用也应和课程教材紧密联系起来,促进高中政治课堂教学顺利进行。教学改革的过程中,

期刊

教学改革多媒体教学课件

景洪电厂事故应急补水在监控系统中的自动化研究及应用

由于特殊的地理位置,为维持下游流量平衡,景洪电厂在机组事故跳闸后,需要开启泄洪闸门进行应急补水。为了得出各泄洪闸门的补水目标开度,运行人员需要根据监控系统和水情系统

期刊

监控系统景洪电厂补水

复述技术研究综述

复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为复述研究提高

期刊

人工智能自然语言处理综述句子复述复述语料库复述抽取复述生成

巨灾保险:国外经验与中国思路

我国巨灾风险形势十分严峻，2008年连续发生南方雨雪冰冻灾害和汶川大地震两次巨灾，造成了惨痛的人员伤亡和重大的财产损失。文章通过分析国外的巨灾保险发展模式，并结合中国当前

期刊

巨灾保险发展模式

严重创伤性湿肺诊治分析

创伤性湿肺是指胸部损伤所引起的肺组织充血、间质水肿或出血的综合性病变.易漏诊、延误治疗.我院1997-12～2002-12收治严重胸外伤致创伤性湿肺32例,现就其特点、诊治体会总结

期刊

肺水肿胸部损伤肺组织/充血

医院UPS的选择

介绍医院重要医疗场所不间断电源装置UPS的电气设计,包括UPS容量与应急供电时间的选择、UPS蓄电池组的选择、UPS房间面积的选取及结构荷载的预留、手术部UPS集中配置和分散配

期刊

UPSUPS容量选择应急供电时间UPS房间面积结构荷载过渡电源备用电源手术部

社会主义协商民主的实效性问题研究

探索社会主义协商民主实效性是继续充分发挥协商民主政治优势、推动政治体制改革、彰显社会主义制度优越性的重要环节.可从前提、价值、核心、内容和保障5个方面入手.

期刊

社会主义协商民主实效性路径

工作记忆训练对视觉监控的影响:认知风格的调节作用

工作记忆本身是一种有限的加工能力,关注与当前任务相关的信息,对其进行编码、操作和存储。有较高工作记忆的个体具有较好的视觉注意能力和复杂航空决策等对航空任务有积极作

会议

工作记忆训练视觉监控认知风格场独立

在高中物理教学中探究性学习模式的应用探究

在教育体制改革作用下,高中物理教学必须创新教学模式,继而提升学生解决问题和创新能力.在传统教学模式下,学生对物理学习的兴趣不足,未能获取丰富的物理知识.探究性学习模式

期刊

高中物理教学探究性学习模式应用

基于Low-IDF-SIG的句子重复检测

其他学术论文