基于XML和SVM的Web文本挖掘研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jinger1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,Internet上的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。论文主要研究Web文本挖掘技术。 论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。论文着重对Web文本预处理的过程和方法进行研究,论文提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的质量和效率有着很重要的影响,因此,Web文本预处理阶段是至关重要的,需要进行详细而完善的研究。论文还构建了一个Web文本挖掘模型,这个基于XML和SVM的Web文本挖掘的模型主要包含了Web文本预处理和Web文本挖掘的功能,它的优点在于它利用权威页面的确定、XML技术以及特征提取逐步地缩小了数据量,同时得到了能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。
其他文献
随着各种生态危机的出现、人们价值观念的转变以及各种“绿色”思潮的影响,城市的宜居性、生态性在城市的建设中越来越受到关注。“生态城市”这一建设理念已逐步得到认可,被
数据交换是影响企业信息化管理发展的主要因素之一。它的目标是实现各个异构数据源之间的数据共享,从而有效地利用资源,提高整个应用系统的性能。但是,需要交换的数据往往在结构
企业法律顾问制度是国家司法制度的重要组成部分。该项制度的研究与应用能够促进企业依法经营、防止国有资产流失、增强企业核心竞争力。有利于适应国际经济发展形势,实现计划
《近代物理实验》作为本科物理学专业的主干课程,对提高学生专业理论知识、实验技能和创新能力起着举足轻重的作用,如何更好地实施有效教学一直是各高校,尤其是新建本科院校
随着我国改革开放的不断推进和经济全球化程度的不断深化,中国经济已经越来越深地融入到了世界经济体系当中,对外投资和外贸已经成为拉动我国经济增长的重要一极。因此,实施“走
政府采购是政府职能的重要内容之一,政府招标采购是政府履行政府采购职能的主要形式。随着政府信息化建设的不断深入,原政府招标采购流程已难以适应政府采购信息化建设发展需求。业务流程再造(BPR)是当今管理界研究热点问题之一。BPR理论与方法是在企业管理领域内提出并发展成熟起来的,其业务流程再造思想及应用技术方法同样适用于政府招标采购流程的改革。 本文以BPR原理及方法为基础,结合当前政府招标采购业
企业信息化是当前社会热门的话题之一,“以信息化带动工业化”也已成为各地政府、各企业领导使用频率最高的词汇。近年来,在政府积极推动和引导下,企业在信息化建设上不断加大投入,企业信息化建设有了长足发展,ERP作为企业信息化建设的一个最具有代表性的项目,它是将企业管理理念、业务流程、基本数据、计算机技术及计算机硬件整合为一体的企业资源管理系统。作为整合企业内部资源、提高企业竞争力的有力工具,ERP受到了