基于图结构的数据挖掘研究及应用

被引量 : 7次 | 上传用户:speed5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究基于图结构的数据挖掘问题,即将特定数据组织成图形式的数据结构,然后辅之算法操作,获取有用知识。当前主流的数据挖掘算法所处理的大多是向量型数据,而在物联网以及社会网络等研究领域如果仅采用向量型数据进行表达,则会产生数据的“属性沉没”问题,即不能够有效的表达向量内数据间属性关系,因为这些数据来源于现实世界,具有天然结构性。图结构可以有效避免“属性沉没”,使得数据间属性相关性充分表达,获取比向量更为丰富的额外信息。如何将这些数据组织成图结构,并对这些图数据进行有效操作,成为了数据挖掘领域新的研究热点。频繁子图的查询和图分类是图数据挖掘的核心,也是其它图数据研究的基础。本文通过对已有子图查询和图分类算法的讨论,改进了图的编码表示方法,使得普通无向图的子图查询可扩展至对有向图的操作;提出将抽样策略融入图分类领域,提升了分类模型形成的效率;最后实现了图挖掘在生物信息领域的应用。本文所做的主要工作如下:1、提出的新算法DFSS对gSpan算法做了适用性改进,算法所采用的图编码技术与传统的FSG,FFSM,AGM等算法对图结构的编码均不同,针对有向图数据特点,提出了层级度和连结度概念,可使算法适用范围有效地扩展至对有向图的学习;目前为止,一系列频繁子图的挖掘大都是基于无向图上的知识发现,对直接作用于有向图的挖掘尚且很少。并且所设计算法较先前基于Apriori思想的FSG,AGM等一系列频繁图挖掘算法,在时间复杂度方面有了一定程度的改进,使得挖掘效率得以提升了(m4/n2)倍;实验结果表明在不损失挖掘完整度的前提下,效率是FFSM算法的70—80倍。2、传统的图分类算法由于支持度阈值选择过低导致频繁子模式规模过大进而造成效率过低,阈值选择过高导致重要模式丢失而造成分类精度下降,如FSG和CEP方法;针对这些问题,提出将抽样学习策略引入图分类领域,同时提出了点的平均度概念,在保持分类准确率前提下通过顶点平均度的计算抽样选取代表性子模式,结合CEP所给出的频繁闭显露模型,设计出一种新的图特征(分类规则)提取方法,解决了CEP算法由于支持度阈值设置过低而导致的无法计算现象,大大提升了分类效率;并通过实验证明本文算法优于现有的一些主流算法。3、提出了一种基于频繁子树挖掘策略的DNA重复序列识别方法,绕开了传统序列比对方式,将序列按照后缀树结构方式进行组织,再对后缀树形式做了约减改进,使其更加适合子树挖掘操作,最后利用频繁子树挖掘的方法对其进行学习,算法可以直接识别出满足设定阈值的重复序列,避免了由短重复体拼接所造成的时间浪费,设计的“二次识别技术”使得算法对模糊重复体也有着很好的识别效果,提高了识别的完整程度,利用实验证明:算法在识别效率方面较高,尤其当识别较长重复体时,优势体现的更为明显,同时在识别的完整程度方面也不相上下。
其他文献
通过液相色谱-质谱方法研究了糖浆和常见的油菜、洋槐、荆条、枣花、荞麦和进口的麦卢卡蜂蜜的差异,确定了除甜菜糖浆外的特征性成分的选择离子,研究结果可以用于蜂蜜掺假和
针对石化行业中低温余热的特点,确定低温余热发电技术方案,特别介绍了利用炼油过程中产生的低压蒸汽和高温热水用来发电的热力系统。通过分析,对石化工业中的低温余热发电项
介绍了超强吸水树脂在国内外的发展情况。由于超强吸水树脂具有良好的吸水性和保水性 ,并有一定的生物适应性及对外界刺激的应答性 ,所以它在工业、农业、建筑、医疗卫生等各
菜名往往能反映地域的文化特征,菜名中折射的饮食文化,是社会文化的一个重要组成部分。文章考察了国内各地的菜系与当地社会文化之间的联系,探讨中国菜式命名上的匠心独运与
在注册会计师服务中,审计服务一直是其核心业务,随着社会经济的发展,会计师事务所行业间的竞争力业越来越大,因而为了更好的发展,会计师事务所也在不断改革企业的经营策略,采
目的:通过对新生儿脐动脉血进行血气分析,探讨其与新生儿窒息、缺氧的关系。方法:对80例足月新生儿出生即时脐动脉血血气分析与Apgar评分、羊水性状进行分析。结果:Apgar评分
中国是音乐治疗最古老的发源地之一。从战国到清代的历史文献中,记载了大量有关论述和临床实例。但作为新兴交叉学科的建立,却是近十年的事。在改革开放的大潮中,人们不再满
会议
本文首先提出一个对民俗文化客观真实性程度的一种量化评价方法,这种量化方法借鉴了经济学中环比的概念。有了评价客观真实性的方法后,在众多连续的时间点上运用相同的评价方
<正>【裁判要旨】黑社会性质组织的首要分子因居于幕后,往往否认指使手下成员实施犯罪行为。对此,应从该组织实施的违法犯罪活动的性质、被害人与首要分子或其组织的关系、该
目的探讨在胆管细胞癌患者诊断中应用CT和MRI的临床诊断价值.方法院内自2017年6月~2019年4月止诊治的62例胆管细胞癌患者,均分别接受CT及MRI检查.结果 MRI的诊断准确率为93.5