论文部分内容阅读
随着互联网的日渐普及与发展,网络信息日益增多,大量无关信息存储在网络大环境中,完全依靠人去查找有价值的信息已经不太现实。然而现代社会人们对于有效信息的需求量不断增加,怎样从繁多的信息中找到对自己有价值的信息,满足自身的信息需求,逐渐成为当前研究的热门课题。信息抽取正是解决当前问题的一种有效方法,目前,一些抽取工具已经在日常生活当中得到了实际应用,信息抽取技术也在发现问题解决问题的过程中不断优化完善。现在信息量的爆炸式增长主要是因为互联网的不断发展与成熟,由于网上信息资源的差异性和组织分散性,使得大量的查阅和提取互联网上的信息受到一定程度的限制,web信息抽取技术的理想效果是能够自动地将网页包含的信息转化为具有一定语义的结构化数据。本文采用web信息抽取技术来对用户感兴趣的信息项进行提取,构建信息抽取模型,设计信息抽取系统完成对网页信息的抽取。本文的抽取信息源来自电子商务网页,以某类商品作为数据源,来设计本文的Web信息抽取系统。首先说明本课题的当前研究现状,从现状分析研究的不足之处,从而引出本课题的研究意义之所在。同时对电子商务网站、DOM、信息抽取的知识进行了简单概述;然后根据电子商务网站的结构特征,将DOM引入到Web信息抽取技术中,使得本文抽取算法的实现成为可能。论文研究重点是设计适用于抽取电子商务网站某类产品信息的抽取模块。首先对于一定量的同类商品网页通过聚类方法找到关键词组(我们要抽取的商品信息项),然后结合DOM树的可操作性,通过Web信息抽取算法实现对商品网页信息的抽取。其次,对提取关键词组和信息抽取模块的设计进行了重点的研究。最后,实现了界面简单且容易上手,用户体验效果较佳的信息抽取系统,对电子商务站点进行信息抽取,从中可以清楚的看到商品信息项的结构化数据。将基于DOM树的信息抽取方法与其他方法相比,理论上精确商品关键词组可以提高信息抽取查准率,论文的研究有助于信息抽取的可适应性以及查准查全率的提高,具有一定的实际意义。