异构信息网络上的主题建模研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lz251667032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web应用的蓬勃发展,现实世界中存在大量的对象,它们相互之间存在各种各样的交互关系,形成一个庞大的、相互联系的复杂网络,我们称这个网络为信息网络。现实中,信息网络无处不在,并且成为现代信息基础设施的一个重要部分。为了更好地理解信息网络及其特性,信息网络分析技术已经引起了人们的关注,而且广泛地应用于数据挖掘、数据分析等领域。当信息网络中的对象和链接都是单类型时,称为同构信息网络。比如DBLP作者合作网络中对象仅代表作者,链接仅代表作者之间的合作关系。当信息网络中的对象或链接是多种类型时,称为异构信息网络。比如在DBLP文献网络中有三种类型的对象,即论文、作者和会议,两种类型的链接,即论文和作者之间“写”与“被写”的关系,论文和会议之间“发表”与“被发表”的关系。到目前为止,在同构信息网络分析的研究中已经有了很多有影响的算法和应用,如ageRank算法,HITS算法,社区发现等。但是,现实世界中的网络大都是异构信息网络,其中不同类型对象间的复杂联系揭示了更重要的结构语义信息,所以异构信息网络研究成为数据挖掘中一个新的研究热点。主题建模是文档分析的一种重要的方法,它能够发现隐藏在文档集中的潜在主题,并且广泛地应用于机器学习和自然语言处理等领域。近些年来,文本文档,如网页、论文、博客等,越来越丰富,而且相互之间或与其他对象之间(如用户)通过各种各样的方式进行联系,形成各种各样的异构信息网络。在异构信息网络中,对象间的链接关系隐含着大量的网络结构语义,对象本身也含有丰富的文本内容。所以研究异构信息网络上的主题建模技术是很有必要的。目前大多数的研究只关注同构信息网络上的主题建模,对异构信息网络上的主题建模研究尚不多见。本文针对异构信息网络上的主题建模问题展开研究,首先提出了一种使用潜在语义分析基于主题传播的主题模型LSA-PTM,将文本内容和网络结构结合在一起进行主题建模,在LSA-PTM基础上,进一步考虑异构信息网络和文本文档两者之间的主题内在一致性,本文又提出了一种更加优化的统一主题模型cluTM。本文的主要工作和贡献总结如下:1.提出一种使用潜在语义分析基于主题传播的主题模型LSA-PTM,该模型提出一种主题传播的方法将异构信息网络融合到主题建模中,从而改进了主题建模的效果。对于建模出的主题,LSA-PTM为每个主题计算出一个主题描述以提高主题的可读性。DBLP数据集上的实验结果表明,较于其他几种主流的主题模型,LSA-PTM取得了更好的效果.2.提出一种融合内容和链接的统一的主题模型cluTM,该模型使用潜在语义分析对文档-短语矩阵以及异构信息网络中的链接矩阵进行联合矩阵分解,将文本文档和异构信息网络融合在一个统一的框架中,使得文本内容和异构网络结构能够在主题建模的过程中能够直接地相互促进,从而提高主题建模和对象聚类的效果。DBLP数据集上的实验结果表明,cluTM的效果优于LSA-PTM.
其他文献
随着互联网的飞速发展,在线社群图像的规模呈爆炸式增长,面对日益庞大的图像数据,如何对图像库进行有效的组织、管理和检索成为亟待解决的问题。标签是当前标注这些网络图像
实值优化问题在工程和学术领域有广泛的应用背景,许多问题最后都可以被定义成实值优化问题来求解。随着系统越来越复杂,需要优化的参数越来越多,优化问题解空间的维度越来越
MapReduce作为一种有效的数据分析和处理解决方案已被广泛应用于大规模数据处理领域。随着MapReduce应用的扩大,越来越多的服务提供商对外提供MapReduce商业服务。服务提供商
我们生活在一个相互关联的世界。大多数数据或信息对象、组件等是内部关联或者相互作用的,形成了无数的、巨大的、相互关联的复杂网络。不失一般性,相互关联的网络称为信息网
随着电子商务的发展和社交平台的广泛应用,以社交网络平台为载体的社交电商成为人们购物的新渠道。社交平台的用户使用量逐年递增,社交电商的潜在用户数量也随之递增。由此,
排序学习是当前信息检索与机器学习领域研究的热点问题之一,它在诸如文档检索、协同过滤、自然语言解析等领域有广泛的应用。排序学习的目标就是应用机器学习技术自动地从训
随着云计算发展,软件开发作为一种服务已经受到越来越多的关注。为了让独立软件开发商(ISV)能够将精力集中在核心业务应用的开发上,更加方便、灵活、快捷地构建SaaS系统,平台
无障碍检测是保障网页内容无障碍访问的基础。在对政府网站的检测过程中,我们发现曾经达到无障碍访问要求的网站中,部分网页新增了存在障碍的内容,例如图片没有替代文本。因此,为
随着科技的进步、信息化的发展、气象研究技术的提高,气象领域积累的数据量与日俱增。如何从海量的气象数据中发现有价值的信息是气象科研人员的一项重要任务。气象信息与人
近年来,云计算得到了学术界和工业界的广泛关注,作为一种新颖的软件提供方式,软件即服务(SaaS)的模式正变得日渐流行。随着用户个性化多样化需求越来越多,面向多租户的网络应