基于规则模型的网页主题文本提取方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：nickyhuang00

【摘要】

：

通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤

【作者】

：

张裕钦李振坤吴永杰

【机构】

：

广东工业大学计算机学院

【出处】

：

计算机工程与设计

【发表日期】

：

2009年20期

【关键词】

：

规则模型信息抽取主题文本提取数据采集 Web挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。

其他文献

英国REF评估框架研究

（ Research Excellence Framework）全称卓越研究评估框架，它将取代现行的大学科研评估search Assessment Exercise,，简称RAE）模式，成为英国用于评价大学学科科研质量及选择性地分

期刊

英国高等教育REF科研评估

大学治理的回归与超越——兼论大学行政化的“去”与“取”

在归纳大学本质及其特性的基础上,对大学治理指向的回归和大学治理模式的超越作了阐释和分析。其中,从＂行政管制＂走向＂服务创新＂是对大学治理指向的回归,也是大学行政化＂去＂与＂取＂的

期刊

大学行政化多中心治理

用十六味流气饮治疗左侧乳腺症

<正> [病例81] 患者41岁,女,初诊于1973年9月16日。病历:消瘦、胃肠弱,寒证,易疲倦,1973年8月16日左侧乳房内触及梅干大的肿块,可移动,稍硬。我认为是肿瘤。治疗:服十六味流

期刊

十六味流气饮

浅析网络犯罪的特点成因及治理对策

网络犯罪是信息时代的产物,具有智能性高、隐蔽性强、风险性低、危害性大等特点。其主要成因是:网络资产价值的强大诱惑、网络系统自身存在的薄弱环节、网络安全技术水平滞后

期刊

网络犯罪网络资产价值

基于OpenURL的开放式参考链接

参考链接在学术研究中具有重要作用。简单回顾了传统链接方式的缺点，在此基础上介绍了基于OpenURL的开放式参考链接及SFX机制。

期刊

参考链接开放链接扩展服务链接服务器reference linking OpenURL extended services SFX

韩国国立大学法人化改革的政策分析——以蔚山科学技术大学为例

韩国国立大学法人化改革历程曲折，阻力颇多，备受争议。但韩国政府从未间断政策层面的努力，从全斗焕政府开始就推动国立大学法人化改革。本研究将系统梳理韩国国立大学法人化改革

期刊

韩国国立大学法人化政策

试论美国第一职业学位人才培养模式

第一职业学位（First Professional Degree）是美国在医学、法律、神学等三大领域授予的一种特殊的职业性学位，是美国学位与研究生教育最具特色的组成部分。它以社会需求导向、行

期刊

美国第一职业学位人才培养模式

基于规则模型的网页主题文本提取方法

其他学术论文