论文部分内容阅读
本文研究了一种基于改进K-means 算法的Web文档聚类系统,并开发出了一套由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统。同时,针对K-means算法的主要缺点和不足,本文对K-means 算法中的关键环节如相似度计算公式,初始聚类中心的选择和新聚类中心的计算方法进行了改进。并且使用F-measure 评价方法对K-means 算法整体改进后的聚类效果进行评价,通过实验性能对比说明了改进算法的优越性。
文章对数据挖掘、聚类分析和Web挖掘进行了概述和总结,介绍了整个系统的架构。并对网络爬虫、中文分词、英文词干提取、特征提取,权重计算和聚类分析等模块进行了深入的研究。最后,通过开发的由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统进行了对比实验,验证了基于改进K-means算法的Web文档聚类系统在准确性和稳定性方面都有所提高。