WEB中文文本聚类分类系统的设计与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:sqs292241644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。本文首先从理论上介绍了Web挖掘,分析了Web挖掘的不同,并对Web挖掘中的两个重要分支聚类和分类以及涉及到的相关理论做了阐述。其次Web文档中的特征表示、特征加权进行了系统的研究,并开发了一套从解析HTML文档、提取特征、计算权值、聚类、分类、可视化的软件。软件采用了多线程技术。介绍和实现了常用聚类算法对文本聚类的应用,其中采用了最常用的四种聚类算法,K-means算法、模糊C均值算法(FCM)、层次聚类法(HAC)以及粒子群优化算法(PSO)。并对主成分分析(PCA)做了相应介绍,通过对高维数据进行主成分变换达到降维的效果,最后选取PCA变换后的前两维作为二维显示的可视化结果。分析了传统粒子群优化算法存在的不足,提出了一种基于密度的粒子群优化算法,和对粒子群的初始化方法,该算法具有传统粒子群算法寻找最优解的特点,同时从密度的角度考虑了数据总体的分布,增强了寻找局部最优解的能力,并通过对粒子群的初始化加快了粒子群的收敛速度,得到了更好的聚类效果。对仿真数据和IRIS真实数据的实验结果证明,该算法聚类效果优于传统粒子群聚类算法和K均值算法。实现了基于支持向量机的文本分类,包括对文本特征的选择、分类器的构造方法以及判别机制等,在实验中对所提到的四种特征选择方法进行实验比较。最后对系统进行了总体设计,各模块功能的详细设计,利用Java语言实现了整个系统。
其他文献
随着互联网的不断发展,DSL技术作为宽带接入技术中的主流,被应用到各种家庭网关和企业网关中。与此同时,随着无线技术的广泛使用,无线AP的分布也是越来越广泛。手工安装和维
运动数据的采集是计算机辅助训练系统中的关键技术。为了给运动仿真提供更快捷和准确的数据,本文提出了一种基于立体测量的运动数据采集的方法。这个方法主要由两部分组成:运
随着生物技术和计算机技术的发展,各类生物数据正在急剧增长,如何利用大量数据从综合整体角度研究问题将成为研究重点,计算技术为生物数据的分析和形成新的生物假说提供了重
随着计算机网络技术的飞速发展,以及电子商务和电子政务应用的普及,WEB应用程序开发已经成为了软件系统开发的主要部分。目前针对网络安全技术的研究发展非常迅速,各种安全技术
随着计算机技术的日益成熟,硬件成本的迅速降低,各种结构复杂、功能强大的计算机系统被广泛应用到航空航天、交通运输、核电能源和医疗卫生等安全关键领域。一旦这些系统失效
进入20世纪90年代以来,人脸识别技术得到了相关部门研究人员的高度重视,取得了快速的发展,自动人脸识别系统已经达到了局部应用的形势。但是,复杂条件下的完全成熟的自动人脸识别
随着软件系统复杂度的提高,使得影响软件运行的因素越来越多,这些因素以及因素间的交互作用很可能引发软件故障,从而影响系统的正常运行。如何科学、有效的检测出由因素及因素间
随着互联网技术的迅速发展,在线考试系统已经广泛应用在学校考试、人才招聘中,其自动评分、成绩报表等功能节省了大量的人力,随机组卷降低了抄袭的可能性。目前,在线考试系统
工程实践中,我们遇到的很多问题都是数值约束优化问题。演化算法由于其强大的搜索能力和鲁棒性等特点,被越来越多地用于解决数值约束优化问题。目前,研究工作者提出了多种不同的
校园网作为学校基础通信平台和信息资源平台,是教学和科研不可缺少的支撑坏境,也是衡量学校学术水平和管理水平的重要标志。在校园“数字化”进程中,校园网正扮演着日益重要