基于改进K-means算法的Web文档聚类系统的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:BluePenguin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了一种基于改进K-means 算法的Web文档聚类系统,并开发出了一套由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统。同时,针对K-means算法的主要缺点和不足,本文对K-means 算法中的关键环节如相似度计算公式,初始聚类中心的选择和新聚类中心的计算方法进行了改进。并且使用F-measure 评价方法对K-means 算法整体改进后的聚类效果进行评价,通过实验性能对比说明了改进算法的优越性。 文章对数据挖掘、聚类分析和Web挖掘进行了概述和总结,介绍了整个系统的架构。并对网络爬虫、中文分词、英文词干提取、特征提取,权重计算和聚类分析等模块进行了深入的研究。最后,通过开发的由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统进行了对比实验,验证了基于改进K-means算法的Web文档聚类系统在准确性和稳定性方面都有所提高。
其他文献
社会的需求推动了技术的进步,应用程序的构建、部署和运用方式也是如此。PC出现后,应用程序的架构采用的是客户端/服务器(C/S)模式,也称为胖客户端模式(Rich Client)。随着Interne
随着网络通信技术的发展,光纤因为其良好的抗电磁干扰特性和高带宽,被广泛应用于网络的连接。多模光纤是局域网(LANs),存储区域网络(storagearea networks)中的重要传输媒介。然
运营商业务飞速的发展,网络规模迅速扩大,但是基础网络资源管理及维护却相对落后,仍然停留在原始的人工管理状态.从目前情况来看,随着网络规模的进一步扩大,基础网络资源管理
由于Internet是一个开放的环境,各种信息都将通过公共网络进行传输,因此保障网络安全的关键性问题之一在于保证信息的传输安全。本文采用一种基于安全通道的信息传输方案,通过建
小波-Contourlet变换是一种新的多分辨率的、局域的、多方向的图像表示方法。它将Contourlet变换第一级的LP分解替换为小波变换,消除了LP分解的冗余;第二级用方向滤波器组实现
传统的录像系统受到当时技术发展水平的局限,录像介质一般采用磁带,而磁带不能进行多次反复地拷贝、重放,图像的高质量保存受到了很大的威胁。随着半导体技术以及数字存储技术的
在集成电路快速发展的趋势下,系统芯片逐渐成为现实。随着系统芯片的设计规模和复杂度的不断提升,其验证已经成为了芯片设计中的瓶颈,大约占整个芯片设计的70%,甚至更多。因此在降