【摘 要】
:
互联网中存在着大量的重复网页,在进行信息检索或大规模网页采集时,网页去重是提高效率的关键之一。本文在研究"指纹"或特征码等网页去重算法的基础上,提出了一种基于编辑距离
【机 构】
:
中国科学院声学研究所,中国科学院大学
【基金项目】
:
国家高技术研究发展计划(863计划)“十二五”计划项目课题(2012AA011102), 国家语委“十二五”科研项目(YB125-53), 中国科学院学部咨询项目(Y129091211)
论文部分内容阅读
互联网中存在着大量的重复网页,在进行信息检索或大规模网页采集时,网页去重是提高效率的关键之一。本文在研究"指纹"或特征码等网页去重算法的基础上,提出了一种基于编辑距离的网页去重算法,通过计算网页指纹序列的编辑距离得到网页之间的相似度。它克服了"指纹"或特征码这类算法没有兼顾网页正文结构的缺点,同时从网页内容和正文结构上进行比较,使得网页重复的判断更加准确。实验证明,该算法是有效的,去重的准确率和召回率都比较高。
其他文献
本文研究陈独秀和《青年杂志》的关系 ,提出陈独秀创办《青年杂志》并不是一个深思熟虑的计划 ,而是一种困于生活的无奈选择 ,并认为《青年杂志》的思想核心是个人主义。本文
目的对比分析了“十三五”与“十二五”末期南充市卫生资源配置公平和效率的发展情况,为进一步优化卫生资源配置提供依据。方法采用卫生资源集聚度和全要素生产率分别对卫生
下一代广电网络(NGB)的建设目标是构建支持"三网融合"业务、全程全网的高速信息网络,而它的运营管理必须具备相应的运营支撑系统(BOSS)。本文参考和分析电信运营商BOSS两级架构体系
提出了一种海云协同环境下的共性服务模式及其平台的实现方案。该模式面向海云协同环境下的应用开发的共性需求进行服务抽象和定义,成为海云协同共性服务。共性服务平台面向
社会转型令语文课程面临纵向的民族文化价值选择,横向的东西文化价值冲突。我们需从文化学、社会学等多视域审视语文课程,建构课程文化理论模型。尝试传统课程文化寻根,国际
月经后期是指月经周期延后7天以上,严重的可达2—3个月,甚至半年一行。亦有月经稀发之称。本人在门诊治疗中应用中医辨证,给予中药调补肝肾、疏肝调冲剂行中药周期治疗,取得一定
文章在实证调研的基础上,分析了安徽新型农业经营主体的职业教育供给现状,指出了供给渠道及主体行为有局限性、供给方式及内容与需求不相适应、教育经费投入不足、师资建设落后
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
网络虚拟化的核心思想是在一个基础网络架构中实现多种异构的虚拟网络并存,该技术是未来网络的一个重要研究方向。本文回顾了网络虚拟化技术的发展历程,对虚拟网的管理与映射算法进行了介绍,并对网络虚拟化的应用前景进行了展望。