基于DOM树的电子商务网站信息抽取技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:ccbeilu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日渐普及与发展,网络信息日益增多,大量无关信息存储在网络大环境中,完全依靠人去查找有价值的信息已经不太现实。然而现代社会人们对于有效信息的需求量不断增加,怎样从繁多的信息中找到对自己有价值的信息,满足自身的信息需求,逐渐成为当前研究的热门课题。信息抽取正是解决当前问题的一种有效方法,目前,一些抽取工具已经在日常生活当中得到了实际应用,信息抽取技术也在发现问题解决问题的过程中不断优化完善。现在信息量的爆炸式增长主要是因为互联网的不断发展与成熟,由于网上信息资源的差异性和组织分散性,使得大量的查阅和提取互联网上的信息受到一定程度的限制,web信息抽取技术的理想效果是能够自动地将网页包含的信息转化为具有一定语义的结构化数据。本文采用web信息抽取技术来对用户感兴趣的信息项进行提取,构建信息抽取模型,设计信息抽取系统完成对网页信息的抽取。本文的抽取信息源来自电子商务网页,以某类商品作为数据源,来设计本文的Web信息抽取系统。首先说明本课题的当前研究现状,从现状分析研究的不足之处,从而引出本课题的研究意义之所在。同时对电子商务网站、DOM、信息抽取的知识进行了简单概述;然后根据电子商务网站的结构特征,将DOM引入到Web信息抽取技术中,使得本文抽取算法的实现成为可能。论文研究重点是设计适用于抽取电子商务网站某类产品信息的抽取模块。首先对于一定量的同类商品网页通过聚类方法找到关键词组(我们要抽取的商品信息项),然后结合DOM树的可操作性,通过Web信息抽取算法实现对商品网页信息的抽取。其次,对提取关键词组和信息抽取模块的设计进行了重点的研究。最后,实现了界面简单且容易上手,用户体验效果较佳的信息抽取系统,对电子商务站点进行信息抽取,从中可以清楚的看到商品信息项的结构化数据。将基于DOM树的信息抽取方法与其他方法相比,理论上精确商品关键词组可以提高信息抽取查准率,论文的研究有助于信息抽取的可适应性以及查准查全率的提高,具有一定的实际意义。
其他文献
【摘 要】随着审美角度也越来越多样化,人们对动画的艺术风格和画面效果、情感诉求等也提出了越来越高的要求。未能够更好地实现作品的理想性,就需要动画的设计者们对于动画设计中的场景布局,以及不同的镜头语言,还有那些不同的艺术风格能够有一个更好的把握。本文旨在对动画场景的设计情感进行一定的探究,并对于动画情感的诉求进行一定的整合处理。  【关键词】动画场景设计 文化精神 情感层面的构建  动画场景是一种时
不能设想,没有一个强大的资本市场,中国经济能够强大起来。中国:谁在屠杀牛市2007年5月16日才刚刚出版的、还散发着油墨味儿的总第323期《中国新闻周刊》的封面上,画着一头牛
目的:探讨腹主动脉夹层动脉瘤误诊的原因,总结经验。方法:对5例腹主动脉夹层动脉瘤临床资料进行回顾性分析。结果:误诊为左肾、输尿管结石3例,急性上消化道出血休克1例,急性
我院2006/2008年接诊4例癌性腹膜炎患者,在外院被误诊为结核性腹膜炎进行抗痨治疗。现分析报道如下。1临床资料1.1一般资料本组均为男性,年龄52~74岁。病程6个月~1 a,发病呈
期刊
江泽民总书记在庆祝中国共产党成立八十周年大会上的讲话,是一篇光辉的马克思主义纲领性文献,是新世纪党的建设的伟大纲领。我们要认真学习、深刻领会、全面把握、抓好落实。
2006年,是我国各族人民在党的正确领导下落实科学发展观、建设创新型国家、实施经济和社会发展“十一五”规划的开辟之年.在经济全球化的剧烈竞争中,我国国内生产总值(GDP)以
我院2005-01/2008-06收治中老年人脑出血34例,其中70%在门诊及院外误诊。为吸取教训,现将2例典型病例分析如下。1病历摘要例1:女,55岁。于45岁时发现有高血压,长间断出现头痛
2005年以来我院共有3例回盲部癌误诊为阑尾炎术后并发肠瘘,分析如下。1病历摘要女,47岁。3个月前以右下腹痛7 d、加重5 h为主诉入院。入院时心肺正常。右下腹压痛、肌紧张,反
  目前,建筑行业已经发展为我国国民经济的支柱产业之一,可随其迅速地发展,日益暴露出来的安全问题,一直引起人们的关注。为了减少事故的发生,政府等相关部门已制定相关政策,或加