面向领域的Deep Web信息抽取研究

被引量 : 4次 | 上传用户:tlljs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web相对于Surface Web而言,蕴含着更加丰富而专业的数据资源。随着其信息量的快速增长,Deep Web的研究越来越受到人们的关注。Deep Web页面具有半结构化特征。如何抽取出这些信息并赋予语义,成为了倍受关注的Deep Web研究课题之一。本论文针对Deep Web信息抽取的应用需求,运用中文分词、本体建模、机器学习等多种技术,对网页预处理、领域本体构建、双重模板构建以及模板匹配等过程进行了深入的研究,并选取天气和图书领域进行Deep Web信息抽取实验。论文的工作主要包括:(1)网页预处理。主要研究了将HTML文档呈现为带有DIV块元素、属性和文本的层次树,以及将DIV块文本转换成字符串流、中文分词、统计词频等网页预处理过程。目标是将HTML文档处理成以DIV块为基本单元,并含有分词结果的数据集合。(2)领域本体构建。领域本体作为某个领域内不同主体之间进行交流的语义基础,在模板构建过程中能够起到优化的作用,减少模板中出现与领域不相关的内容。(3)双重模板构建。考虑到现有网页通常在整体上利用"DIV+CSS"结构设计,在细节处利用表格布局的特点,采用DIV块模板和表格模板结合的方法。利用网页预处理的结果,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以定位到数据块。接着利用XML技术,机器辅助构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。实验表明,利用C4.5决策树算法训练出的分类模型准确率达到了95.2%,在实际的应用中,能准确地进行DIV块的分类。利用双重模板进行Deep Web信息抽取的平均准确率和召回率都可以达到95%以上,取得了较好的抽取效果。同时,双重模板比单一模板更稳定和更利于维护。(4)模板匹配。传统的基于URL的模板匹配方法误差较大。本论文在传统方法的基础上,结合网页相似度的计算方法,进行模板匹配。首先利用URL字符串进行粗略的匹配,再利用网页相似度进行更精确的匹配。实验表明,在不降低匹配效率的同时,模板匹配的正确率达到了93%,相比于传统方法提高了32.9%。
其他文献
宜宾市郊之北,天柱山横亘之际。山下,一巨石中开,形成天然峡谷,谷底有清泉缓缓流出,十分奇特。北宋年间。谪居于此的大诗人、大书法家黄庭坚不以迁谪介意,泊然处之,寄情干戎州(今宜宾
通过分析影响电路正常工作的各种电性质干扰,提出抑制这些干扰的途径和办法。
阐述了检测系统的各种干扰及干扰形成的原因;详细分析了干扰的传导途径;指出了抑制干扰的三方面措施,以便于有效抑制干扰,提高检测系统的抗干扰能力.
介绍了《钠基膨润土防水毯》标准制定的背景和制定的依据,并对标准中的产品分类、试验项目、实验方法、性能指标等做了详细的阐述。
二十世纪以来,电视媒介以其特有的传播优势迅速成为了大众传媒的主流代表,其即时现场呈现、声音图像双重传播、人际交流平台、媒介兼容、线性连续传播等特征让电视媒介具有了
探究性教学是一种学习的体验,即要求学生在探究学习中获得一种适应社会、生存于社会的能力。本文就初中历史探究性教学的理论、原则、特点及在教学实践中的运用进行分析。
鸡维生素A缺乏症是由于维生素A缺乏引起的营养代谢病,以生长缓慢,视觉障碍和上皮组织损害为特征.本病幼禽多发,在个别养鸡场由于青绿饲料缺乏,可大群发生.
党和国家高度重视社会救助立法工作,第十三届全国人大常委会已将《社会救助法》列入立法规划一类项目。本文立足解决我国社会救助领域存在的现实问题,结合当前我国社会救助领
1949年元旦,针对国民党“划江而治”的企图,中共中央当即发出了庄严宣告:“绝不能容许国民党反动派把台湾作为最后挣扎的根据地,中国人民解放军斗争的任务就是要解放全中国,
授时问题一直以来是在野外使用的各类设备需要解决的一个重要问题,尤其是使用非实时操作系统的设备要实现高精度授时是比较困难的。本文中针对非实时操作系统设备提出了一种