基于蚁群的文本聚类算法的改进研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hnkfxndz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类方法的研究是一个古老但是一直富有挑战的问题,然而如今Internet上的文本信息飞速的增长,人们在大量文本中获取信息的需求也随之升高,所以对于文本聚类技术的研究更显重要。近些年,人们受自然界中蚂蚁堆积尸体、分类幼体等现象的启发,由Deneubourg等人首先提出了基于蚁群的聚类算法。蚁群聚类算法与文本聚类技术的结合就形成了基于蚁群的文本聚类算法。该方法对于解决文本聚类问题显示了较好的前景,但当前还不完善,值得进一步研究。 本文对标准的蚁群聚类算法以及后来典型的改进算法进行了研究,发现在一些情况下不能得到满意的聚类结果。其原因可归结为两个方面:一方面是由于算法本身不够完善,蚂蚁的行动缺乏目的性,蚂蚁的“拾起”“移动”“放下”的动作都有很大的随机性,影响了算法的收敛,另外当蚂蚁周围的环境发生变化时,蚂蚁的状态不能做出调整;另一方面,文本的相似度计算不够精确,以往的聚类方法大多采用基于VSM的关键词匹配的文本相似度计算方法,这种方法的最大的缺点就是忽略了词之间的语义信息,忽略了各维度之间的联系。 本文针对以上两个问题对当前的蚁群聚类算法进行改进,其关键创新点在于: 1.扩展蚁群聚类算法,通过为蚂蚁增加两个记忆器,使蚂蚁在对文档的拾起,移动方向的选择,放下位置的选择上更有目的性,另外通过对比较概率以及蚂蚁观察半径的动态调整,增强了蚂蚁对环境的适应性。 2.在文本聚类的相似度计算上引入基于语义的方法——基于本体的相似度计算方法,来提高文本相似度的计算精度,并以WordNet为本体实现了这一算法。 论文最后利用源于Reuters-21578标准语料库的50篇文档对所提出的算法进行了实验,并利用聚类精度和召回率对实验结果进行了评价,然后把评价结果与标准的蚁群聚类算法进行了比较。结果证明本文所提出的基于本体的扩展算法在聚类精度和召回率上优于标准的蚁群聚类算法,达到了算法改进的目的。另外通过与K-means算法的结果比较也显示了本文算法的优越性。
其他文献
大规模接收并消纳可再生能源发出的电力和实现智能化成为未来电网发展的趋势和方向。风能作为一种极具开发潜力的可再生能源,目前已进入大规模开发利用阶段。然而,不同于常规
随着计算机网络与信息技术的发展,传统媒体的数字化越来越普遍。媒体内容的数字化为信息的处理提供了极大的便利,但同时也带来了极大的负面影响。由于数字媒体内容具有虚拟性
谐振电感是大功率LLC谐振变换器的关键部件,对实现软开关起着决定性作用。传统大功率谐振电感的磁路结构大多采用单气隙结构,该结构谐振电感在工作过程中易出现局部温升过高
电力变压器是电力系统的枢纽设备,其运行的可靠性与电力系统的安全密切相关,变压器运行状态的有效评估以及变压器故障类型的准确诊断一直是电力工作者研究的重点和难点。本文结合油色谱分析技术,采用改进遗传算法优化的最小二乘支持向量机建立了电力变压器故障预测与故障诊断通用模型,该模型需要的数据量小,泛化能力强,并通过多个现场实例分析证明了该方法的正确性与有效性。同时,本文开发了一套基于SQL Server 2
本文通过对荣华二采区10
期刊
目前,我国对石油消费的需求越来越大,已经跃居世界第二并且对石油的需求呈现逐年增长的趋势。因此,海洋油气的开发显得尤为重要。最近几年,海洋油气的开发已经逐渐从浅海向深
自动重合闸作为保证输电线路安全运行、提高供电可靠性的自动装置,在电力系统中得到广泛应用。但当自动重合闸重合于永久性故障时,会给电力系统以及电力设备带来严重冲击。本文综合运用小波变换与近似熵分析,研究线路永久性故障与瞬时性故障的识别方法,提出新的自适应重合闸判据和方法,避免重合闸重合于永久性故障,保障电力系统安全稳定运行。本文对现有自适应重合闸的主要几类故障判定方法进行了分析与总结,指出了其适用范围
经济理论认为,某些经济时间序列存在长期均衡关系。一些经济变量之间似乎不会存在任何均衡关系,但事实上若干个非平稳经济时间序列的某种线性组合却有可能是平稳序列。格兰杰