基于改进K-means算法的Web文档聚类系统的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户：BluePenguin

【摘要】

：

本文研究了一种基于改进K-means 算法的Web文档聚类系统，并开发出了一套由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统。同时，针

【作者】

：

王钦平

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2007年期

【关键词】

：

数据挖掘聚类 Web挖掘 K-means聚类算法向量空间模型网络爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文研究了一种基于改进K-means 算法的Web文档聚类系统，并开发出了一套由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统。同时，针对K-means算法的主要缺点和不足，本文对K-means 算法中的关键环节如相似度计算公式，初始聚类中心的选择和新聚类中心的计算方法进行了改进。并且使用F-measure 评价方法对K-means 算法整体改进后的聚类效果进行评价，通过实验性能对比说明了改进算法的优越性。文章对数据挖掘、聚类分析和Web挖掘进行了概述和总结，介绍了整个系统的架构。并对网络爬虫、中文分词、英文词干提取、特征提取，权重计算和聚类分析等模块进行了深入的研究。最后，通过开发的由网络爬虫、数据清理、中文分词、特征提取、权重计算和聚类分析等模块组成的Web文档聚类系统进行了对比实验，验证了基于改进K-means算法的Web文档聚类系统在准确性和稳定性方面都有所提高。

其他文献

Smart Client技术在分布式系统中的应用研究

社会的需求推动了技术的进步，应用程序的构建、部署和运用方式也是如此。PC出现后，应用程序的架构采用的是客户端／服务器(C／S)模式，也称为胖客户端模式(Rich Client)。随着Interne

学位

智能客户端胖客户端瘦客户端Web服务.NET框架

10 Gbit/s的多模光纤传输系统的仿真

随着网络通信技术的发展，光纤因为其良好的抗电磁干扰特性和高带宽，被广泛应用于网络的连接。多模光纤是局域网(LANs)，存储区域网络(storagearea networks)中的重要传输媒介。然

学位

以太网光纤传输系统网络通信多模光纤

传送网综合管理系统开发与研究

运营商业务飞速的发展,网络规模迅速扩大,但是基础网络资源管理及维护却相对落后,仍然停留在原始的人工管理状态.从目前情况来看,随着网络规模的进一步扩大,基础网络资源管理

学位

资源管理系统GIS数据库访问接口XML技术数据模型

基于Java的安全传输通道研究

由于Internet是一个开放的环境，各种信息都将通过公共网络进行传输，因此保障网络安全的关键性问题之一在于保证信息的传输安全。本文采用一种基于安全通道的信息传输方案，通过建

学位

安全传输通道数据加密数字签名身份认证

小波-Contourlet变换及其在图像处理中的应用

小波-Contourlet变换是一种新的多分辨率的、局域的、多方向的图像表示方法。它将Contourlet变换第一级的LP分解替换为小波变换，消除了LP分解的冗余；第二级用方向滤波器组实现

学位

Contourlet变换小波-Contourlet变换图像融合图像增强Cycle Spinning

硬盘录像机编解码的实现研究

传统的录像系统受到当时技术发展水平的局限，录像介质一般采用磁带，而磁带不能进行多次反复地拷贝、重放，图像的高质量保存受到了很大的威胁。随着半导体技术以及数字存储技术的

学位

硬盘录像机编解码技术寄存器信号采集PCB图单片机

可重用性验证IP设计技术研究

在集成电路快速发展的趋势下，系统芯片逐渐成为现实。随着系统芯片的设计规模和复杂度的不断提升，其验证已经成为了芯片设计中的瓶颈，大约占整个芯片设计的70％，甚至更多。因此在降

学位

验证IP覆盖率驱动系统芯片可重用性验证

基于改进K-means算法的Web文档聚类系统的研究与实现

其他学术论文