面向半结构化数据的数据模型和数据挖掘方法研究

被引量 : 0次 | 上传用户:nightwish110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、Internet、数据库技术的快速发展,各领域积累的半结构化数据和信息急剧增加。迫切需要面向知识发现需求设计半结构化数据模型,利用模型存储和描述半结构化数据的内容和结构信息。设计有效的半结构化数据挖掘算法,从大量半结构化数据文档中提取深层次的用于描述信息、结构特征以及事物发展趋势的预测内容,综合内容和结构等多方面信息对半结构化数据进行深层次的潜在知识发现。本文面向半结构化数据模型和数据挖掘方法展开了深入研究,主要内容包括:(1)从半结构化数据研究的整体内容出发,对该领域知识进行了详细的综述。总结了各种已提出的半结构化数据模型和数据模式;从特征提取、频繁结构的发现、文档聚类与分类等多角度详细综述了当前半结构化数据挖掘技术的研究进展;跟踪介绍了当前流行的数据挖掘系统的功能特点。(2)针对半结构化数据模型下不精确和不确定性知识,设计了基于标签树的粗糙集模型LTRS。利用LTRS模型从结构和内容两个角度分析半结构化数据,基于树的表现形式从结构和内容两个角度生成决策规则,描述树节点间的组成关系和内容上的知识约简。基于现有半结构化数据模型中缺少对数据变化趋势和变化程度的形式化定义,缺乏对数据动态性质有力描述的缺点,提出了一个带有树平均深度和平均宽度等动态变化信息的树模型ADAWT,为后续高效空间动态变化结构的发现奠定了基础。(3)提出一种新的基于数据的平衡方法—SSGP,用于处理半结构化数据固有的偏斜数据集分类问题。该算法能处理数据集中存在多种少数类别样例的情况,此外还扩展并运用了样例取模运算,使算法在计算效率上取得了较大提高。(4)在处理XML等半结构化数据集的聚类和分类问题时,都会面临类边界相互重叠,边界噪声带来聚类质量或分类精度下降的问题。借鉴方向性和物理学中万有引力定律的思想,以数据对象之间的相互作用为基础,从标量影响和方向影响两个角度讨论基于密度的聚类问题,提出一个考察对象间矢量感应的密度聚类算法VICA。使用方向相似度法和累加向量法两种计算矢量感应函数的方法判断邻域平衡,处理边界稀疏、对象密度分布不均且含有边界噪声点等情况下的数据聚类问题。(5)针对于传统的静态挖掘算法不能胜任对动态变化的XML文档进行知识发现的问题,利用所提出的ADAWT模型,设计了发现平均深度和平均宽度的空间结构变化达到用户关注程度的SCSFinder算法。此外,基于已抽取发现的各种动态结构为特征构建特征空间,将XML文档表示成特征向量的形式,利用改进的聚类算法实现了大规模XML文档的聚类分析。(6)基于已有的半结构化数据挖掘理论基础,综合目前市场及科研领域较为流行和成熟的数据挖掘产品(如SAS Enterprise Miner、Weka等)的优点,设计了一个多策略数据挖掘原型系统—DBIN Miner。系统实现了对半结构化XML数据的存储,集成了前述工作所介绍的挖掘算法和常用的基本数据挖掘算法。并针对数据挖掘技术和数据挖掘系统面临的处理大规模数据的难题,通过缓冲区和插件技术对系统的可扩展性等问题进行了重点设计与实现。本文在半结构化数据模型设计、面向半结构化数据应用的分类与聚类问题、基于半结构化数据动态特征提取的文档聚类等方向展开相关研究工作,为半结构化数据的知识发现打下理论基础。并且将所研究的理论应用于数据挖掘原型系统的设计与实现中,为相关理论的商业化应用奠定了基础。
其他文献
殷商甲骨文和两河流域原始楔形文字分别被认为是汉古文字和古代楔形文字两个文字系统迄今发现最早的较为系统的两种文字材料。它们都是自源文字,且分别处于汉古文字系统和楔
在中国大学生学习英语的四项技能当中,写作被认为是最复杂的技能。大学生英语写作近年来备受关注,国内外许多语言学家和教师从语言学层面,以不同的视野,采用不同的方法对大学
整本书阅读,从2011版语文课标提出以来备受关注;即将公布的高中语文课标修订本,更是将之作为高中必修课、选修课中必需的学习任务群来规定,单是必修课,就做了1个学分、18个课
目的:通过钻孔减压植骨促进股骨头囊变区的修复,并通过临床研究观察中药生新复原丸对改善微循环促进股骨头修复的机制。方法:对30例按Fihcat分期1、2期股骨头缺血性坏死,采用经
城市增长是世界性现象,但中国的城市增长在改革开放后的30年表现的更为明显。城市化处于加速发展阶段,城市化水平从1977年的17.55%增长到2008年的43%左右,越来越多的农村人口
针对欧盟和中国生物质成型燃料产业发展状况,分别从市场建设、政策制定和标准体系建立三方面展开对比分析,希望通过总结欧盟发展经验,为建立有中国特色生物质成型燃料产业体
逆变器广泛应用于工业生产的各个方面,数字控制具有方便实现复杂算法、抗干扰性强和产品容易升级等优点,已成为未来逆变器的发展趋势。使用数字技术控制设计逆变器,控制器的
多丽丝·莱辛是当代一位重量级的女性作家。她著数丰硕,风格多变,思想深刻,其作品深受西方评论界青睐,并于2007年获得诺贝尔文学奖。本文将以莱辛的代表作《金色笔记》和《简
目的:建立一种虎杖中白藜芦醇的含量测定方法。方法:TLCS法测定,以石油醚-乙酸丁酯-甲醇-冰醋酸(4:1:0.7:0.02)为展开剂,293mm紫外光为扫描波长,超声震荡法提取白藜芦醇。结
本文对美国水利融资制度作了深入分析,发现市场机制在美国水利融资中扮演了重要角色,在市场机制的作用下美国水利建设融资效率是比较高的结合我国的实际情况提出优化我国水利