结合LSA的文本谱聚类算法研究

被引量 : 0次 | 上传用户:chen19107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的聚类分析算法最常见的比如k-means算法和EM算法,这些算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法会陷入局部最优。谱聚类算法能在任意形状的样本空间上聚类且收敛于全局最优解的优点。它可以将一个复杂的聚类问题转化成一个代数求解问题,大大简化了聚类模型。但是谱聚类算法本身具有很多不足,最为基础的就是谱聚类(Spectral Clustering)所需要的相似矩阵的构造问题,它涉及到很多参数,已有的实验表明,谱聚类对相似矩阵十分敏感,所以如何构造一个好的相似矩阵就变得很重要了。但是,目前学术界还没有给出一个如何构造相似矩阵的指导性原则。此外,文本预处理作为文本聚类最重要的基础,常常采取向量空间模型。向量空间模型一个很大的缺点就是文本向量表示的高维性,特征项之间的同义多义造成了特征的大量冗余,针对这一问题,潜在语义分析(Latent Semantic Analysis, LSA)利用奇异值分解来达到降维和提高文本向量语义相关性的目的,同时还降低了文本数据处理需要的存储空间和时间复杂性。本文主要研究是将潜在语义分析与谱聚类结合起来。利用潜在语义分析的优点来构造谱聚类需要的相似矩阵。在这个过程中,本文主要做了以下几方面的工作:①分析了目前文本向量空间模型的不足:第一,文本向量表示的高维性,使得对文本数据的处理消耗大量时间;第二,文本向量各特征相互独立的假设很难满足,存在大量的特征冗余现象。针对这些问题,在第四章提出了结合潜在语义分析的谱聚类算法。②针对谱聚类的相似矩阵,本文没有专门研究影响其构造的许多参数,而是从文本数据集本身出发,应用潜在语义分析技术,在语义空间重新构造文本相似度,提高文本向量的表达力,从而最大程度上避免了参数不同时相似矩阵对谱聚类算法效果的影响。③在进行结合潜在语义分析的谱聚类实验后,本文进一步发现了一种简化的潜在语义分析技术,与经典的LSA算法相比,本文提出的技术在求文档相似度时候不必考虑奇异值矩阵,加速了实验过程,而且效果也很不错。进一步表明:本文采用的思路是正确可行的。
其他文献
多元文化社会里,学前教育课程内容必须体现多元文化观念以适应社会需要。本文从多元文化视角,对学前教育课程内容选择的取向、广度及难度问题进行了探讨,以期为幼教工作者提
人怎么看和看什么并不是纯然透明、天真的和毫无选择的纯自然的眼光。视觉方式不仅强调眼睛的物理属性,作为人的生理器官和感觉器官,我们对周遭世界的认识和把握都是通过眼睛
建设中央银行会计核算数据集中系统,实现会计核算业务处理和数据管理的全国集中,是我国中央银行会计核算和管理工作的重大变革,对提高中央银行信息化水平、改善中央银行金融
英语写作对于学习者而言非常重要,在听、说、读、写这四项基本语言技能中,"写"的要求最高,难度最大。然而英语写作教学,不论国内还是国外,无论是母语还是外语,一直是困扰语言
<正>企业党支部书记是党支部建设工作的主要负责人,在党支部中是"班长",是党的路线、方针、政策最直接的贯彻执行者。党支部书记综合素质的高低、工作能力的强弱关系到上级党
在煤炭企业的不断改革发展过程中,企业的管理机制、经营方式发生了重大变化,多经企业也站到了市场经济的前沿,由于体制、机制、管理、监督等方面尚不健全,给多经企业的党风廉
烟草企业安全管理工作是一项较为复杂的管理工作。其安全管理工作开展如何对于烟草企业能否健康发展极为重要。本文在对烟草企业安全管理重要性进行介绍的基础上,就烟草企业
<正>针对当前出现的"当兵冷"、"征兵难"问题,我们在深入基层广泛调研、认真组织研究讨论的基础上,按照《兵役法》关于兵役登记工作的规定,组织先行试点,探索规范兵役登记的内
随着我国电子商务的发展,线上商家数量不断增加,这就使得线上和线下两类销售商竞争不断加剧,价格作为一种重要的竞争手段,它直接关系到消费者对产品的接受程度,因此,线上和线
在提升城市活力方面公共交通扮演着重要角色。公共交通被广泛的认为是减少交通拥堵,改善城市环境,使公众平等的融入社会生活的手段。本文主要内容如下:(1)通过分析天津市1996