论文部分内容阅读
近年来,随着互联网技术的不断快速发展,网络中的数据量日益庞大,大多数是以文本的形式存在的。如何有效处理这些海量数据,从中发现有用的信息成为一个迫切需要解决的问题。文本挖掘相关研究作为应对这一问题的重要研究而受到越来越多的关注,成为数据挖掘领域研究的热点。但由于文本数据不同于数值数据,自身较为复杂,给相关研究带来较大程度的难度。同时,在文本挖掘相关研究中,文本分类方法由于对样本数据的依赖,实际应用中也不容易得到较好的处理效果。文本聚类作为一种无监督的文本分类处理方式,成为文本挖掘领域一项热门技术研究。文本聚类是聚类算法在文本处理领域的一种应用,其核心内容就是聚类算法,这也是本文研究的重点。在充分研究了文本聚类各项技术基础上,为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK (a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。本文最后通过Java程序语言对改进的算法进行实现,并在不同大小的文本集上进行文本聚类实验,同时与传统的K-means算法和层次方法中聚类效果较好的Chameleon算法对比。实验结果表明,TCBIBK算法聚类有效性与稳定性都得到较大提高。