一种基于文本抽取的网页正文去重算法

来源 :科技信息 | 被引量 : 0次 | 上传用户:pomerku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。
其他文献
稀土金属元素因其与双功能试剂的螯合效率高、对肽段的反相色谱行为和质谱的离子化效率影响小、检测背景低,以及过量的金属离子在检测时不会产生干扰等优点,近年来在生物标记
针对基于优化技术的电网故障诊断的现有数学模型存在权值分配受人为主观因素影响的问题,提出了基于免疫克隆约束多目标优化方法的电网故障诊断。首先,在剖析原有诊断模型的目
麦汁煮沸是啤酒酿造的重要工序之一,影响啤酒的口味和非生物稳定性。通过提前麦汁初沸时间、缩短麦汁总煮沸加热时间,对麦汁煮沸工艺进行优化,在保证啤酒非生物稳定性的前提下,改
为应对国家食品、药品安全的限量要求,采用微波消解法对软胶囊进行前处理,电感耦合等离子体质谱法(ICP-MS)同时测定软胶囊中铅、镉、砷、汞、铬、硒、铜、铁、锰和镍等10种痕量
分析牛顿定律和刚体转动定律的对称性,由对称性原理推导出刚体定轴转动的动能定理、角动量定理、角动量守恒定律和机械能守恒定律,避免了繁杂的数学推导并在有限的时间内提高
由于《通信原理》课程具有原理性、逻辑性和综合性强的特点,为了加深学生对课程的理解,本文介绍了将System View仿真工具应用于《通信原理》的辅助教学。并以时分复用的工作
传统中医药学是中华民族的宝贵财富和智慧的结晶,是民族赖以生存繁衍的重要保障。随着现代科学的迅猛发展,对于传统中药的物质基础和作用机理研究不断深入。从这个意义上讲,中医