基于BIRCH改进算法的文本聚类研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:sdsxw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的不断快速发展,网络中的数据量日益庞大,大多数是以文本的形式存在的。如何有效处理这些海量数据,从中发现有用的信息成为一个迫切需要解决的问题。文本挖掘相关研究作为应对这一问题的重要研究而受到越来越多的关注,成为数据挖掘领域研究的热点。但由于文本数据不同于数值数据,自身较为复杂,给相关研究带来较大程度的难度。同时,在文本挖掘相关研究中,文本分类方法由于对样本数据的依赖,实际应用中也不容易得到较好的处理效果。文本聚类作为一种无监督的文本分类处理方式,成为文本挖掘领域一项热门技术研究。文本聚类是聚类算法在文本处理领域的一种应用,其核心内容就是聚类算法,这也是本文研究的重点。在充分研究了文本聚类各项技术基础上,为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK (a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。本文最后通过Java程序语言对改进的算法进行实现,并在不同大小的文本集上进行文本聚类实验,同时与传统的K-means算法和层次方法中聚类效果较好的Chameleon算法对比。实验结果表明,TCBIBK算法聚类有效性与稳定性都得到较大提高。
其他文献
人体姿态识别是计算机视觉领域的一个重要研究方向,它在众多领域具有广阔应用前景,比如智能监控、高级人机交互、人体运动分析等。但是碍于普通光学图像容易受光照、阴影等外界
该文首先叙述了几种最优化方法及其在求解旅行商问题中的应用.这些最优化方法包括:模拟退火算法,Hopfield神经网络,遗传算法,蚁群算法,禁忌搜索,竞争算法,以及混合算法.初步
该文着重研究微软的组件对象模型COM/DCOM和ActiveX应用开发技术.该文深入讨论了COM/DCOM和ActiveX的内在机制和应用集成技术,详细分析了COM/DCOM的接口和组件实现方法,在此
随着互联网的持续发展和日益普及,互联网成了人们生活、工作和学习中不可或缺的一部分。每个用户既是信息的获取者也是信息的提供者,这使得网上的信息呈现几何级增长,涉及面