论文部分内容阅读
随着网络的持续发展,数据量以惊人的速度增长,冗余信息大量存在,同时数据间存在着复杂的关联关系。这使得现有的排序方法中面临着三个问题:信息冗余影响排序结果、将异质关联关系简化造成信息丢失、排序结果难以理解。本文基于异质信息网络,希望得到同时具有权威性、多样性及可解释性的多目标排序结果,具体的研究内容包括如下: 首先,我们提出了面向权威度及多样性的两阶段排序模型。该模型将数据建模成一个异质信息网络,先使用MutualRank通过直接在异质信息网络上的随机游走来更好地建模对象的权威度;接着使用PDRank融合各个对象的权威度及对象之间的多样性,最终能得到同时具备权威度及多样性的排序序列。该模型直接利用数据中的异质关联关系对对象的权威度进行建模,并解决数据冗余的问题。通过实验我们证明了MutualRank对于权威度的学习效果优于传统的PageRank,同时基于两阶段排序模型得到的排序结果也优于已有的基准方法。 接着,我们提出了基于聚类及链接分析的挖掘模型LinkNetClus,该模型将对象类型分为目标类型及属性类型,并假设目标对象属于每个簇的概率依赖于与之相关的其他对象,在目标对象上进行迭代的聚类操作,最终得到具有多样性的聚类结果。该模型充分利用了异质信息网络中的关联关系,得到多维的挖掘结果来解决数据冗余的问题,结果的可解释性也优于排序序列。通过实验我们证明了使用LinkNetClus得到的聚类结果优于已有的基准方法。 最后,对于LinkNetClus得到的聚类结果,我们提出了三阶段标签提取模型来对每个簇进行解释。我们将标签提取问题分解为候选标签抽取、标签相关性评分及多标签选择三个子问题,对于每个子问题我们都介绍了相应的解决方法,并比较了多种方法之间的优劣。在实验中,我们证明了标签提取模型的有效性,并且验证了使用K+Uniq+Div的标签提取方法效果最优。 结合LinkNetClus挖掘模型及标签提取模型,我们总结了面向异质信息网络的多目标挖掘框架,该框架对于用户的查询,可以得到同时具备权威性、多样性及可解释性的挖掘结果。