面向领域的Deep Web信息抽取研究

被引量 : 4次 | 上传用户：tlljs

【摘要】

：

Deep Web相对于Surface Web而言,蕴含着更加丰富而专业的数据资源。随着其信息量的快速增长,Deep Web的研究越来越受到人们的关注。Deep Web页面具有半结构化特征。如何抽取

【作者】

：

高原

【发表日期】

：

2013年01期

【关键词】

：

Deep Web 领域本体 DIV块模板表格模板模板匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Deep Web相对于Surface Web而言,蕴含着更加丰富而专业的数据资源。随着其信息量的快速增长,Deep Web的研究越来越受到人们的关注。Deep Web页面具有半结构化特征。如何抽取出这些信息并赋予语义,成为了倍受关注的Deep Web研究课题之一。本论文针对Deep Web信息抽取的应用需求,运用中文分词、本体建模、机器学习等多种技术,对网页预处理、领域本体构建、双重模板构建以及模板匹配等过程进行了深入的研究,并选取天气和图书领域进行Deep Web信息抽取实验。论文的工作主要包括：(1)网页预处理。主要研究了将HTML文档呈现为带有DIV块元素、属性和文本的层次树,以及将DIV块文本转换成字符串流、中文分词、统计词频等网页预处理过程。目标是将HTML文档处理成以DIV块为基本单元,并含有分词结果的数据集合。(2)领域本体构建。领域本体作为某个领域内不同主体之间进行交流的语义基础,在模板构建过程中能够起到优化的作用,减少模板中出现与领域不相关的内容。(3)双重模板构建。考虑到现有网页通常在整体上利用"DIV+CSS"结构设计,在细节处利用表格布局的特点,采用DIV块模板和表格模板结合的方法。利用网页预处理的结果,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以定位到数据块。接着利用XML技术,机器辅助构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。实验表明,利用C4.5决策树算法训练出的分类模型准确率达到了95.2%,在实际的应用中,能准确地进行DIV块的分类。利用双重模板进行Deep Web信息抽取的平均准确率和召回率都可以达到95%以上,取得了较好的抽取效果。同时,双重模板比单一模板更稳定和更利于维护。(4)模板匹配。传统的基于URL的模板匹配方法误差较大。本论文在传统方法的基础上,结合网页相似度的计算方法,进行模板匹配。首先利用URL字符串进行粗略的匹配,再利用网页相似度进行更精确的匹配。实验表明,在不降低匹配效率的同时,模板匹配的正确率达到了93%,相比于传统方法提高了32.9%。

其他文献

黄庭坚把酒作诗赞“五粮”

宜宾市郊之北，天柱山横亘之际。山下，一巨石中开，形成天然峡谷，谷底有清泉缓缓流出，十分奇特。北宋年间。谪居于此的大诗人、大书法家黄庭坚不以迁谪介意，泊然处之，寄情干戎州（今宜宾

期刊

黄庭坚流杯池

干扰及其抑制

通过分析影响电路正常工作的各种电性质干扰,提出抑制这些干扰的途径和办法。

期刊

干扰电路干扰源干扰途径

检测系统干扰的综合分析

阐述了检测系统的各种干扰及干扰形成的原因;详细分析了干扰的传导途径;指出了抑制干扰的三方面措施,以便于有效抑制干扰,提高检测系统的抗干扰能力.

期刊