基于DOM和网页模板的Web信息抽取

来源 :电脑知识与技术(学术交流) | 被引量 : 0次 | 上传用户：ladiylove

【摘要】

：

文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪

【作者】

：

王丽唐建雄

【机构】

：

武汉理工大学

【出处】

：

电脑知识与技术(学术交流)

【发表日期】

：

2007年18期

【关键词】

：

信息抽取文档结构模型网页模板抽取规则相对路径 Information ExtractionDOMWebTemPlateExtractionRuleRel

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.

其他文献

文明寨极复杂断块油田微生物驱油试验研究

根据文明寨极复杂断块油田的油藏地质特征与剩余油分布规律,开展了有关微生物驱油提高原油采收率的试验研究.在室内进行了微生物菌种的筛选与复配、微生物复配体系的适应性、

期刊

断块油气藏剩余油微生物采油微生物实验室试验现场试验文明寨油田fault block reservoir residual oil microbia

某兵团医院人力资源分析

通过对2006-2008年某兵团医院卫生人力资源基本信息的动态分析和流出人员的结构分析,剖析当前兵团医院卫生人力资源配置存在的主要问题,寻求解决存在问题的办法。采用现况研

期刊

某兵团医院人力资源配置a hospital of xinjiang production and construction cropshuman reso

喷嘴孔径对PDC钻头井底流场影响的数值分析

根据实际PDC钻头结构.建立了2个不同孔径四喷嘴PDC钻头模型,研究了喷嘴孔径对井底漫流特性的影响及漫流层高度和最大漫流速度.分析了流场的总体特点,得出了喷嘴孔径对PDC钻头

期刊

PDC钻头喷嘴井底流场数值分析PDC bit nozzle downhole flow field numerical analysis

研制断层侧向封堵软件系统的地质原理

断层侧向封堵性是形成断层控制油气藏的必要条件.经过多年的探索和总结,根据地质原理,结合滚动勘探开发的实际需求,开发出在微机上运行的断层侧向封堵软件系统,经广泛使用表

期刊

断层侧向封堵软件系统研制地质学fault side blocking software system development geology

美国高校网络课程及其启示

目前，中国网络教育研究者正在从多个理论角度探索和研究网络教育的课程设计方法。本文从网络教育的理念、网络教育的教学设计要素和方法等方面谈作者对美国密西西比州立大学网

期刊

网络课程设计交互合作信任关系

储存式磁定位压力计的研制

针对试井测试中深度测量不准确的问题,研制了一种新型储存式磁定位压力计,该仪器由地面控制仪和井下仪器两部分组成.给出了井下仪器的组成、工作原理及主要技术指标.该仪器采

期刊

压力计深度测量试井磁定位应用pressure meter depth measurement well test magnetic positioni

基于DOM和网页模板的Web信息抽取

其他学术论文