基于规则模型的网页主题文本提取方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:nickyhuang00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。
其他文献
( Research Excellence Framework) 全称卓越研究评估框架,它将取代现行的大学科研评估search Assessment Exercise,,简称RAE)模式,成为英国用于评价大学学科科研质量及选择性地分
在归纳大学本质及其特性的基础上,对大学治理指向的回归和大学治理模式的超越作了阐释和分析。其中,从"行政管制"走向"服务创新"是对大学治理指向的回归,也是大学行政化"去"与"取"的
<正> [病例81] 患者41岁,女,初诊于1973年9月16日。病历:消瘦、胃肠弱,寒证,易疲倦,1973年8月16日左侧乳房内触及梅干大的肿块,可移动,稍硬。我认为是肿瘤。治疗:服十六味流
网络犯罪是信息时代的产物,具有智能性高、隐蔽性强、风险性低、危害性大等特点。其主要成因是:网络资产价值的强大诱惑、网络系统自身存在的薄弱环节、网络安全技术水平滞后
参考链接在学术研究中具有重要作用。简单回顾了传统链接方式的缺点,在此基础上介绍了基于OpenURL的开放式参考链接及SFX机制。
韩国国立大学法人化改革历程曲折,阻力颇多,备受争议。但韩国政府从未间断政策层面的努力,从全斗焕政府开始就推动国立大学法人化改革。本研究将系统梳理韩国国立大学法人化改革
第一职业学位(First Professional Degree)是美国在医学、法律、神学等三大领域授予的一种特殊的职业性学位,是美国学位与研究生教育最具特色的组成部分。它以社会需求导向、行