基于K-Means的分布式文本聚类系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:n4fc561v4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的不断增加,使得信息的数量激增。从大数据中提炼有价值的信息,成为当今研究的热点。其中文本数据是信息最主要的载体之一,随着企业文本数据的不断增加,员工难以快速并且准确的查询有效信息。文本数据的主题抽取和自动化归类处理可以为文本信息检索以及个性化推荐提供基础。传统的文本数据分类处理一般通过人为标注划分,需要投入较高的人力成本以及时间成本。如何高效快捷的实现海量文本数据的主题抽取和自动化归类处理,成为当前企业急需解决的问题。因此建立一套分布式文本聚类系统至关重要。本文首先对文本聚类基础理论进行分析,结合文本聚类算法、并行编程模型以及文本聚类技术设计并实现了一套分布式文本聚类系统。该系统针对企业文本数据不断增加,难以得到有效应用的情况,高效并快速的实现文本数据特征词抽取和自动归类。本系统结合Spring MVC框架进行架构,采用JSP动态页面实现本系统的表示层,采用前端控制器DispatcherServlet来查找Controller实现系统的控制层。系统的业务逻辑层主要由数据源传输、文本预处理、文本聚类分析、聚类结果处理等模块组成。在文本预处理模块,对文本分词、停用词过滤、特征提取、文本向量空间生成的过程进行并行化设计并实现。最终将非结构化的文本数据转化为结构化的文本向量。在聚类分析模块中,设计并行化K-Means聚类算法对文本向量数据进行分布式聚类分析。针对K-Means聚类算法初始点选取的随机性问题,提出了Canopy算法来进行初始点的选取,提升聚类有效性。最后搭建Hadoop集群,对并行后的文本聚类算法进行了可扩展性实验、查准率实验以及加速比实验。实验结果表明进行并行化后的算法,聚类结果良好并且聚类效率较高。运用JMeter对系统进行性能测试,测试结果表明系统的响应时间以及并发用户数量等满足系统非功能需求。本文结合Hadoop云计算平台以及Spring MVC框架设计并实现了分布式文本聚类系统。该系统降低了大数据量下文本处理的硬件需求,让企业在大量的文本数据处理中,无需预先进行人工标注,便可以对文本主题进行抽取并进行文本信息的分类管理,为后续企业文本信息检索提供以及个性化推荐提供基础。该系统有效降低大数据量下的文本数据处理人力成本以及硬件需求。有利于员工高效快捷的处理海量文本数据,提取有效信息。因此,具有较高的研究以及实现的价值。
其他文献
文章从如何制作个人网页入手,针对个人主页的实际状况提出一系列的选择,改变个人主页生硬、枯燥、千篇一律的模式,对个人建立自己个性化的站点做出了大胆的尝试。
随着社会的进步,国学教育一扫往日颓式,引领着教育界的新潮流,可是有些人盲目追风,在情感和行为方面失去了应有的冷静和理性的判断。因此只有及时分析国学教育的现状,把握它
<正>近年来,中国出版集团以争做国际著名出版集团、增强国家文化软实力为己任,坚持实施走出去战略,有所努力,也有所收获。中国出版集团作为中国最大的大众出版和专业出版集团
智力落后儿童由于自身的缺陷,在成长中会遇到很多有关性的问题的困扰,因此性教育应当成为智力落后教育中的重要领域。国外学者所提出的“人际圈理论”对于促进智力落后儿童形
由于计算机及网络技术的发展,计算机信息系统在国民经济和社会生活中扮演着越来越重要的角色存储在其中的信息不仅仅是科技、经济发展的重要资源,甚至是关系到国家安全的重要
<正>为进一步规范全省各级各类机关、单位的会议记录工作,辽宁省档案局组织起草了《辽宁省机关单位会议记录规定》,以省委办公厅、省政府办公厅名义印发全省执行。《规定》共
会计管理是企业管理的基础性工作,建立健全企业内部会计管理制度有利于贯彻执行会计法规制度、规范会计工作秩序、完善会计管理制度体系、改善单位经济管理,制定企业内部会计
当前,随着生活节奏的加快和职场竞争的日益激烈,许多年轻父母将子女交由长辈抚养和教育,隔代教养的现象越来越普遍。隔代教养有利有弊,其好处表现为减轻父母的压力、有助于孩