论文部分内容阅读
文本聚类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对文本聚类问题的文本聚类算法进行了深入的讨论和研究,设计并实现了基于新算法的中文文本聚类系统。在传统聚类算法及各种文本聚类系统研究的基础之上,本文提出了以下几方面创新:第一,改进了传统文本聚类算法在任意聚类簇形状发现方面的不足,成功的将基于划分、基于密度的和基于层次的文本聚类思想相结合。第二,通过理论和实验的手段证明了新算法在聚类形状发现方面较传统算法存在优势,同时证明新算法兼顾了文本聚类时间效率和形状发现方面的优势。实验数据表明,新的文本聚类算法较传统文本聚类算法在准确度方面提高了4%。第三,在传统的中文文本聚类模型的基础上提出了简洁的中文文本聚类模型,并且将新的文本聚类算法应用在新的中文本聚类模型之中。第四,对新算法进行了一定的理论方面的阐明,并给出了新算法具体的实现过程。最后,根据文本空间向量模型和新的文本聚类算法,实现了中文文本聚类系统。在系统实验中,通过对比K-means算法、Chameleon算法和K-C三种聚类算法对多类的文档进行了测试并验证了文本向量空间维数大小及不同的领域对聚类效果的影响,实验结果表明,本文所设计的中文聚类系统及K-C算法,表现出了良好的性能和稳定性。