论文部分内容阅读
文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。本文首先从理论上介绍了Web挖掘,分析了Web挖掘的不同,并对Web挖掘中的两个重要分支聚类和分类以及涉及到的相关理论做了阐述。其次Web文档中的特征表示、特征加权进行了系统的研究,并开发了一套从解析HTML文档、提取特征、计算权值、聚类、分类、可视化的软件。软件采用了多线程技术。介绍和实现了常用聚类算法对文本聚类的应用,其中采用了最常用的四种聚类算法,K-means算法、模糊C均值算法(FCM)、层次聚类法(HAC)以及粒子群优化算法(PSO)。并对主成分分析(PCA)做了相应介绍,通过对高维数据进行主成分变换达到降维的效果,最后选取PCA变换后的前两维作为二维显示的可视化结果。分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的聚类效果。对仿真数据和IRIS真实数据的实验结果证明,该算法聚类效果优于传统粒子群聚类算法和K均值算法。实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验比较。最后对系统进行了总体设计,各模块功能的详细设计,利用Java语言实现了整个系统。