论文部分内容阅读
随着网民的增多和互联网的大规模普及,大量文本数据的积累变得越来越容易,从而导致文本信息搜索困难和文本资源利用率低下。文本聚类作为一种无指导的文本自动归类技术,能够协助人们对海量的文本信息进行有效地组织和管理,并帮助人们从大规模的文本资源中快速、全面地定位所需信息。因此,文本聚类在数据挖掘中扮演着越来越重要的角色。
文本聚类通过对文本的内容进行分析,将原始文本集划分成若干个类,同时要求类内的文本尽可能的相似,而类之间的文本尽可能的不相似。基于单词频繁项集的文本聚类方法在单词频繁项集的基础上进行聚类,不仅能够避免文本数据高维稀疏性等特点所带来的影响,而且其聚类结果具有良好的浏览机制。然而,其聚类质量和聚类效率却并不令人满意。
针对基于单词频繁项集文本聚类方法存在的不足,本文将超团的概念引入文本聚类,并提出一种基于单词超团的文本聚类算法。该算法将文本集中的每个文本看成是事务数据库中的一个事务,同时把文本中出现的单词看成是该文本所对应事务中的项。对于给定的支持度阈值和超团信任度阈值,算法首先利用超团挖掘算法找出文本集中所有的单词超团,然后根据这些单词超团进行文本聚类。公共数据集上的多组对比实验说明:本文所提出的算法能够取得比FIHC算法和UPGMA算法更好的聚类精度和聚类速度。此外,本文还从理论和实验两个方面分析和验证单词超团引入文本聚类的可行性和优越性。