基于词共现的文本主题挖掘模型和算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:QQ81886788
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展与社会信息化进程的加快,数字化的信息呈爆炸式的增长,已经远远超出了人类的理解与概括能力。利用计算机从大量的文本资料中自动发掘有价值的知识与信息,是解决这一难题的有效途径。本文以数据挖掘理论为基础,重点研究了文本主题挖掘的相关模型及算法。主要研究内容包括:首先,研究了文本的表示模型。通过分析词共现现象,从理论上证明了词共现现象与主题之间的相关关系,从而提出了基于词共现组合的文档表示模型(Co-occurrence Term Vector Space Model, CTVSM)。利用关联规则挖掘,抽取出文本集上的共现词组合集合,进而定义了基于CTVSM的文本表示向量,以及文本相似性的度量方法。其次,以CTVSM为基础研究了文本聚类问题,提出了基于CTVSM的文档层次聚类方法,将文档和文档的聚类表示为共现词组合的向量,利用文本相似性度量方法,设计了文档聚类之间的相似性度量方法。为了快速判断层次聚类过程中的最优划分层,定义了文档聚类的中心点,提出了基于聚类熵的最优划分层判断准则。实验证明,基于CTVSM的文档聚类取得了较好的效果。然后,研究了文本空间中的词聚类问题,根据文本集上的抽取出的共现词组合集合,定义了文本集上的词共现图,将词映射为图中的点,词与词的共现度映射为图中的连接两点的边,从而将词聚类问题转化为在图中划分点簇的问题。提出了基于图密度的词聚类方法,在聚类过程中,一个词加入一个词类的依据为该词的加入是否能显著提高该词类的图密度,直到所有词都被划分到词簇中。实验结果表明本文提出的方法与一般方法在算法复杂度(实验进行的时间)以及聚类效果上均有显著提高。最后,研究了文本集上挖掘出的主题在信息推荐与信息检索中的应用问题。以文本的主题抽取为例,利用文本空间中的主题信息,提高了文本主题抽取的质量。通过对文本主题的预测,确定文档所属的主题域,进而确定了该文本主题词抽取的领域词范围,据此对文档中的词的权重进行调整,从而使主题领域词汇得以较高的权重,保证了抽取出的主题词的主题精确度。实验证明,算法提高了文本主题词抽取的质量,特别是在词频权重区别度不明显的短文本中,抽取质量有显著提高。
其他文献
随着社会经济的发展,高速公路建设进入到了蓬勃发展的新时期.在公路工程建设过程中,施工内业资料作为重要的施工信息,是业主向施工方拨付工程款的根本依据;作为工程档案的重
知觉恒常性作为人类视觉系统最基本和最重要的功能之一,对人类正确稳定地感知世界起着极其重要的作用。为了使计算机视觉系统具有类似的感知功能,知觉恒常性计算成为了计算机
本文以轨道列车为研究对象,从其生产过程中的管理方法以及措施进行分析,并在此基础上探析调动生产团队以及配套服务资源的方法,旨在提供一定的生产管理方法,促进城市轨道列车
幼儿园孩子画的画,不是扎着辫子就是穿着裙子的清一色的女教师形象。因为在孩子们眼中,“老师都是女的啊,叔叔肯定不是老师”。如何解决这一尴尬的问题?杭州市拱墅区舟山路幼
随着计算机需要处理的数据的维数越来越大,数据降维技术已经成为一项越来越重要的数据处理技术。数据降维的目标是在保持分类和决策能力的前提下,去除掉数据中不相关或者不重
UI设计的好坏,对产品具有一定的影响作用。在用户使用产品的过程中,需要充分满足用户需求,提高用户的视觉效果,使用户产生良好的用户体验感受。由此可见,UI设计和用户体验在
以390MW燃气电厂为例,就其厂用电的节能分配进行了研究,提出了相应的节能分配建议,旨在为提升燃气电厂厂用电率提供思路.
中国特色社会主义进入了新时代,在此背景下,意识形态建设尤为重要。高校作为意识形态工作的前沿和重要阵地,肩负着培养中国特色社会主义事业合格建设者和可靠接班人的重要任务,本
我们应该从如何改善政府监管的本身去提出可能的政策建议。雾霾治理这一大众流行话题引起的,不仅是如何治理雾霾本身的思考,同时引发学术界对政府监管思路的新反思。一些学者