论文部分内容阅读
聚类方法的研究是一个古老但是一直富有挑战的问题,然而如今Internet上的文本信息飞速的增长,人们在大量文本中获取信息的需求也随之升高,所以对于文本聚类技术的研究更显重要。近些年,人们受自然界中蚂蚁堆积尸体、分类幼体等现象的启发,由Deneubourg等人首先提出了基于蚁群的聚类算法。蚁群聚类算法与文本聚类技术的结合就形成了基于蚁群的文本聚类算法。该方法对于解决文本聚类问题显示了较好的前景,但当前还不完善,值得进一步研究。 本文对标准的蚁群聚类算法以及后来典型的改进算法进行了研究,发现在一些情况下不能得到满意的聚类结果。其原因可归结为两个方面:一方面是由于算法本身不够完善,蚂蚁的行动缺乏目的性,蚂蚁的“拾起”“移动”“放下”的动作都有很大的随机性,影响了算法的收敛,另外当蚂蚁周围的环境发生变化时,蚂蚁的状态不能做出调整;另一方面,文本的相似度计算不够精确,以往的聚类方法大多采用基于VSM的关键词匹配的文本相似度计算方法,这种方法的最大的缺点就是忽略了词之间的语义信息,忽略了各维度之间的联系。 本文针对以上两个问题对当前的蚁群聚类算法进行改进,其关键创新点在于: 1.扩展蚁群聚类算法,通过为蚂蚁增加两个记忆器,使蚂蚁在对文档的拾起,移动方向的选择,放下位置的选择上更有目的性,另外通过对比较概率以及蚂蚁观察半径的动态调整,增强了蚂蚁对环境的适应性。 2.在文本聚类的相似度计算上引入基于语义的方法——基于本体的相似度计算方法,来提高文本相似度的计算精度,并以WordNet为本体实现了这一算法。 论文最后利用源于Reuters-21578标准语料库的50篇文档对所提出的算法进行了实验,并利用聚类精度和召回率对实验结果进行了评价,然后把评价结果与标准的蚁群聚类算法进行了比较。结果证明本文所提出的基于本体的扩展算法在聚类精度和召回率上优于标准的蚁群聚类算法,达到了算法改进的目的。另外通过与K-means算法的结果比较也显示了本文算法的优越性。