基于DOM树的电子商务网站信息抽取技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：ccbeilu

【摘要】

：

随着互联网的日渐普及与发展，网络信息日益增多，大量无关信息存储在网络大环境中，完全依靠人去查找有价值的信息已经不太现实。然而现代社会人们对于有效信息的需求量不断增加，怎

【作者】

：

杨文超

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2013年期

【关键词】

：

电子商务网站 DOM树关键词组信息抽取可适应性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的日渐普及与发展，网络信息日益增多，大量无关信息存储在网络大环境中，完全依靠人去查找有价值的信息已经不太现实。然而现代社会人们对于有效信息的需求量不断增加，怎样从繁多的信息中找到对自己有价值的信息，满足自身的信息需求，逐渐成为当前研究的热门课题。信息抽取正是解决当前问题的一种有效方法，目前，一些抽取工具已经在日常生活当中得到了实际应用，信息抽取技术也在发现问题解决问题的过程中不断优化完善。现在信息量的爆炸式增长主要是因为互联网的不断发展与成熟，由于网上信息资源的差异性和组织分散性，使得大量的查阅和提取互联网上的信息受到一定程度的限制，web信息抽取技术的理想效果是能够自动地将网页包含的信息转化为具有一定语义的结构化数据。本文采用web信息抽取技术来对用户感兴趣的信息项进行提取，构建信息抽取模型，设计信息抽取系统完成对网页信息的抽取。本文的抽取信息源来自电子商务网页，以某类商品作为数据源，来设计本文的Web信息抽取系统。首先说明本课题的当前研究现状，从现状分析研究的不足之处，从而引出本课题的研究意义之所在。同时对电子商务网站、DOM、信息抽取的知识进行了简单概述；然后根据电子商务网站的结构特征，将DOM引入到Web信息抽取技术中，使得本文抽取算法的实现成为可能。论文研究重点是设计适用于抽取电子商务网站某类产品信息的抽取模块。首先对于一定量的同类商品网页通过聚类方法找到关键词组（我们要抽取的商品信息项），然后结合DOM树的可操作性，通过Web信息抽取算法实现对商品网页信息的抽取。其次，对提取关键词组和信息抽取模块的设计进行了重点的研究。最后，实现了界面简单且容易上手，用户体验效果较佳的信息抽取系统，对电子商务站点进行信息抽取，从中可以清楚的看到商品信息项的结构化数据。将基于DOM树的信息抽取方法与其他方法相比，理论上精确商品关键词组可以提高信息抽取查准率，论文的研究有助于信息抽取的可适应性以及查准查全率的提高，具有一定的实际意义。

其他文献

动画场景设计的情感诉求与整合

【摘要】随着审美角度也越来越多样化，人们对动画的艺术风格和画面效果、情感诉求等也提出了越来越高的要求。未能够更好地实现作品的理想性，就需要动画的设计者们对于动画设计中的场景布局，以及不同的镜头语言，还有那些不同的艺术风格能够有一个更好的把握。本文旨在对动画场景的设计情感进行一定的探究，并对于动画情感的诉求进行一定的整合处理。　　【关键词】动画场景设计文化精神情感层面的构建　　动画场景是一种时

期刊

动画场景设计文化精神情感层面的构建

中国股市会继续走“牛”吗——请珍惜中国股市来之不易的牛市行情

不能设想,没有一个强大的资本市场,中国经济能够强大起来。中国:谁在屠杀牛市2007年5月16日才刚刚出版的、还散发着油墨味儿的总第323期《中国新闻周刊》的封面上,画着一头牛

期刊

牛市继续走中国新闻周刊资本市场市盈率牛眼易宪容静态市盈率油墨中国楼市

腹主动脉夹层动脉瘤误诊5例分析

目的:探讨腹主动脉夹层动脉瘤误诊的原因,总结经验。方法:对5例腹主动脉夹层动脉瘤临床资料进行回顾性分析。结果:误诊为左肾、输尿管结石3例,急性上消化道出血休克1例,急性

期刊

主动脉瘤/诊断动脉瘤夹层/诊断误诊

癌性腹膜炎误诊结核性腹膜炎4例分析

我院2006/2008年接诊4例癌性腹膜炎患者,在外院被误诊为结核性腹膜炎进行抗痨治疗。现分析报道如下。1临床资料1.1一般资料本组均为男性,年龄52~74岁。病程6个月~1 a,发病呈

期刊

肿瘤/并发症腹膜炎/诊断结核腹膜/诊断误诊

世界大学科研竞争力排行榜

期刊

江泽民同志“七一”重要讲话中的理论创新成果

江泽民总书记在庆祝中国共产党成立八十周年大会上的讲话,是一篇光辉的马克思主义纲领性文献,是新世纪党的建设的伟大纲领。我们要认真学习、深刻领会、全面把握、抓好落实。

期刊

理论创新成果党的建设新提法《讲话》党的领导中国先进生产力生活作风干部工作邓小平理论领导干部

优化教育改革态势促进和谐社会构建——2007年办刊新思考

2006年,是我国各族人民在党的正确领导下落实科学发展观、建设创新型国家、实施经济和社会发展“十一五”规划的开辟之年.在经济全球化的剧烈竞争中,我国国内生产总值(GDP)以

期刊

优化教育改革态势和谐社会构建改革和发展落实科学发展观经济和社会发展党的正确领导经济全球化生产总值社会主义各族人民持续增长十一五创新型

中老年人脑出血误诊2例分析

我院2005-01/2008-06收治中老年人脑出血34例,其中70%在门诊及院外误诊。为吸取教训,现将2例典型病例分析如下。1病历摘要例1:女,55岁。于45岁时发现有高血压,长间断出现头痛

期刊

脑出血/诊断误诊

回盲部癌误诊为阑尾炎术后并肠瘘3例分析

2005年以来我院共有3例回盲部癌误诊为阑尾炎术后并发肠瘘,分析如下。1病历摘要女,47岁。3个月前以右下腹痛7 d、加重5 h为主诉入院。入院时心肺正常。右下腹压痛、肌紧张,反

期刊

回肠肿瘤/诊断肓肠肿瘤/诊断阑尾炎/外科学手术后并发症肠瘘/诊断误诊

建筑工程安全预警管理研究

　　目前，建筑行业已经发展为我国国民经济的支柱产业之一，可随其迅速地发展，日益暴露出来的安全问题，一直引起人们的关注。为了减少事故的发生，政府等相关部门已制定相关政策，或加

学位

建筑安全安全预警GA-SVM预警管理指标体系

基于DOM树的电子商务网站信息抽取技术研究

与本文相关的学术论文