面向异质信息网络的多目标挖掘技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yeximajor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的持续发展,数据量以惊人的速度增长,冗余信息大量存在,同时数据间存在着复杂的关联关系。这使得现有的排序方法中面临着三个问题:信息冗余影响排序结果、将异质关联关系简化造成信息丢失、排序结果难以理解。本文基于异质信息网络,希望得到同时具有权威性、多样性及可解释性的多目标排序结果,具体的研究内容包括如下:  首先,我们提出了面向权威度及多样性的两阶段排序模型。该模型将数据建模成一个异质信息网络,先使用MutualRank通过直接在异质信息网络上的随机游走来更好地建模对象的权威度;接着使用PDRank融合各个对象的权威度及对象之间的多样性,最终能得到同时具备权威度及多样性的排序序列。该模型直接利用数据中的异质关联关系对对象的权威度进行建模,并解决数据冗余的问题。通过实验我们证明了MutualRank对于权威度的学习效果优于传统的PageRank,同时基于两阶段排序模型得到的排序结果也优于已有的基准方法。  接着,我们提出了基于聚类及链接分析的挖掘模型LinkNetClus,该模型将对象类型分为目标类型及属性类型,并假设目标对象属于每个簇的概率依赖于与之相关的其他对象,在目标对象上进行迭代的聚类操作,最终得到具有多样性的聚类结果。该模型充分利用了异质信息网络中的关联关系,得到多维的挖掘结果来解决数据冗余的问题,结果的可解释性也优于排序序列。通过实验我们证明了使用LinkNetClus得到的聚类结果优于已有的基准方法。  最后,对于LinkNetClus得到的聚类结果,我们提出了三阶段标签提取模型来对每个簇进行解释。我们将标签提取问题分解为候选标签抽取、标签相关性评分及多标签选择三个子问题,对于每个子问题我们都介绍了相应的解决方法,并比较了多种方法之间的优劣。在实验中,我们证明了标签提取模型的有效性,并且验证了使用K+Uniq+Div的标签提取方法效果最优。  结合LinkNetClus挖掘模型及标签提取模型,我们总结了面向异质信息网络的多目标挖掘框架,该框架对于用户的查询,可以得到同时具备权威性、多样性及可解释性的挖掘结果。  
其他文献
为了提高室内覆盖质量,满足用户不断增长的业务需求,LTE中引入了家庭基站技术。家庭基站的引入提高了系统容量,增强了网络覆盖,减轻了宏网的流量压力;同时也带来了干扰,频繁切
随着数据挖掘、模式识别等领域的发展,机器学习越来越受到人们的重视,作为机器学习领域的一种重要算法,支持向量机由于其优良的性能指标得到了广泛的应用。而对于面向服务器和高
量子化学(Quantum Chemistry)是应用量子力学(Quantum Mechanics,QM)的基本原理和方法研究化学问题的一门基础科学,用以研究分子体系的微观结构、性能等。由于受到QM计算复杂度和
空间科学是指利用航天器研究发生在日地空间、行星际空间及至整个宇宙空间的物理、天文、化学和生命等自然现象及其规律的科学。一直以来,太阳的活动对地球有显著的影响,日冕物
网页关键信息抽取是指从网页中抽取关键信息。关键信息是该网页区别于其他网页的信息。网页关键信息抽取在信息检索、辅助移动设备用户浏览、网络数据分析等方面有非常广泛的
随着互联网技术和视频技术的发展,网络视频的数量呈现出爆炸式的增长速度。台标作为网络视频的一个最显著标志之一,对于视频检索、视频监管均具有重要的应用价值,同时视频台标检
随着通信技术的快速发展,视频的传输和扩散越来越便捷。随之而来的版权保护问题也得到了越来越多的关注。视频水印就是常见的.有效的版权保护方法。为了能够有效的保护版权,
计算机内存系统是影响体系结构、系统软件和应用软件效能的最重要因素之一。过去几十年,由于处理器与内存之间的性能差距越来越大,内存系统已成为制约系统性能的瓶颈。近几年,高
学位
随着web和社交网络的兴起,图计算相关的应用已经成为计算机领域的一个热点。为图计算提供数据存储服务和查询服务的图数据存储系统,在面对社交网络这种大规模数据集时,也正遭遇