WEB中文文本聚类分类系统的设计与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：sqs292241644

【摘要】

：

文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本

【作者】

：

张宇

【机构】

：

西南交通大学

【出处】

：

西南交通大学

【发表日期】

：

2009年期

【关键词】

：

预处理特征选择文本聚类文本分类可视化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。本文首先从理论上介绍了Web挖掘,分析了Web挖掘的不同,并对Web挖掘中的两个重要分支聚类和分类以及涉及到的相关理论做了阐述。其次Web文档中的特征表示、特征加权进行了系统的研究,并开发了一套从解析HTML文档、提取特征、计算权值、聚类、分类、可视化的软件。软件采用了多线程技术。介绍和实现了常用聚类算法对文本聚类的应用,其中采用了最常用的四种聚类算法,K-means算法、模糊C均值算法(FCM)、层次聚类法(HAC)以及粒子群优化算法(PSO)。并对主成分分析(PCA)做了相应介绍,通过对高维数据进行主成分变换达到降维的效果,最后选取PCA变换后的前两维作为二维显示的可视化结果。分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的聚类效果。对仿真数据和IRIS真实数据的实验结果证明,该算法聚类效果优于传统粒子群聚类算法和K均值算法。实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验比较。最后对系统进行了总体设计,各模块功能的详细设计,利用Java语言实现了整个系统。

其他文献

基于TR-069协议的远程配置管理终端的研究与实现

随着互联网的不断发展,DSL技术作为宽带接入技术中的主流,被应用到各种家庭网关和企业网关中。与此同时,随着无线技术的广泛使用,无线AP的分布也是越来越广泛。手工安装和维

学位

TR-069CWMP远程控制配置管理

一种基于立体测量的运动数据采集方法设计与实现

运动数据的采集是计算机辅助训练系统中的关键技术。为了给运动仿真提供更快捷和准确的数据,本文提出了一种基于立体测量的运动数据采集的方法。这个方法主要由两部分组成:运

学位

运动跟踪运动建模相机定标立体视觉

面向生物数据集成分析的方法和工具研究

随着生物技术和计算机技术的发展,各类生物数据正在急剧增长,如何利用大量数据从综合整体角度研究问题将成为研究重点,计算技术为生物数据的分析和形成新的生物假说提供了重

学位

芯片合成蛋白定向进化代谢路径合成数据集成文献挖掘相互作用网络癌症多维数据

WEB应用程序安全设计及应用技术的研究

随着计算机网络技术的飞速发展，以及电子商务和电子政务应用的普及，WEB应用程序开发已经成为了软件系统开发的主要部分。目前针对网络安全技术的研究发展非常迅速，各种安全技术

学位

计算机网络网络服务应用程序程序设计

贝叶斯网络在软件可信性评估指标体系中的应用

随着计算机技术的日益成熟,硬件成本的迅速降低,各种结构复杂、功能强大的计算机系统被广泛应用到航空航天、交通运输、核电能源和医疗卫生等安全关键领域。一旦这些系统失效

学位

可信计算软件可信性贝叶斯网络

基于ASM/AAM的人脸面部特征点定位研究

进入20世纪90年代以来，人脸识别技术得到了相关部门研究人员的高度重视，取得了快速的发展，自动人脸识别系统已经达到了局部应用的形势。但是，复杂条件下的完全成熟的自动人脸识别

学位

自动人脸识别技术面部特征点Hough变换主动形状模型主动表观模型

可配置IPO的测试用例生成

随着软件系统复杂度的提高，使得影响软件运行的因素越来越多，这些因素以及因素间的交互作用很可能引发软件故障，从而影响系统的正常运行。如何科学、有效的检测出由因素及因素间

学位

测试用例集生成IPO策略遗传算法优化特性

在线考试系统中若干技术研究与优化

随着互联网技术的迅速发展,在线考试系统已经广泛应用在学校考试、人才招聘中,其自动评分、成绩报表等功能节省了大量的人力,随机组卷降低了抄袭的可能性。目前,在线考试系统

学位

试题上传方法语义分析Web前端性能优化并发连接优先级队列

演化计算中的数值约束处理技术研究

工程实践中，我们遇到的很多问题都是数值约束优化问题。演化算法由于其强大的搜索能力和鲁棒性等特点，被越来越多地用于解决数值约束优化问题。目前，研究工作者提出了多种不同的

学位

演化算法约束优化最优解收敛速度

校园网总体架构及其安全系统的研究与设计

校园网作为学校基础通信平台和信息资源平台,是教学和科研不可缺少的支撑坏境,也是衡量学校学术水平和管理水平的重要标志。在校园“数字化”进程中,校园网正扮演着日益重要

学位

校园网主干结构三层交换网络安全

WEB中文文本聚类分类系统的设计与实现

其他学术论文