基于DOM和网页模板的Web信息抽取

来源 :电脑知识与技术(学术交流) | 被引量 : 0次 | 上传用户:ladiylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.
其他文献
根据文明寨极复杂断块油田的油藏地质特征与剩余油分布规律,开展了有关微生物驱油提高原油采收率的试验研究.在室内进行了微生物菌种的筛选与复配、微生物复配体系的适应性、
通过对2006-2008年某兵团医院卫生人力资源基本信息的动态分析和流出人员的结构分析,剖析当前兵团医院卫生人力资源配置存在的主要问题,寻求解决存在问题的办法。采用现况研
根据实际PDC钻头结构.建立了2个不同孔径四喷嘴PDC钻头模型,研究了喷嘴孔径对井底漫流特性的影响及漫流层高度和最大漫流速度.分析了流场的总体特点,得出了喷嘴孔径对PDC钻头
断层侧向封堵性是形成断层控制油气藏的必要条件.经过多年的探索和总结,根据地质原理,结合滚动勘探开发的实际需求,开发出在微机上运行的断层侧向封堵软件系统,经广泛使用表
目前,中国网络教育研究者正在从多个理论角度探索和研究网络教育的课程设计方法。本文从网络教育的理念、网络教育的教学设计要素和方法等方面谈作者对美国密西西比州立大学网
针对试井测试中深度测量不准确的问题,研制了一种新型储存式磁定位压力计,该仪器由地面控制仪和井下仪器两部分组成.给出了井下仪器的组成、工作原理及主要技术指标.该仪器采