论文部分内容阅读
随着互联网规模的不断增加,使得信息的数量激增。从大数据中提炼有价值的信息,成为当今研究的热点。其中文本数据是信息最主要的载体之一,随着企业文本数据的不断增加,员工难以快速并且准确的查询有效信息。文本数据的主题抽取和自动化归类处理可以为文本信息检索以及个性化推荐提供基础。传统的文本数据分类处理一般通过人为标注划分,需要投入较高的人力成本以及时间成本。如何高效快捷的实现海量文本数据的主题抽取和自动化归类处理,成为当前企业急需解决的问题。因此建立一套分布式文本聚类系统至关重要。本文首先对文本聚类基础理论进行分析,结合文本聚类算法、并行编程模型以及文本聚类技术设计并实现了一套分布式文本聚类系统。该系统针对企业文本数据不断增加,难以得到有效应用的情况,高效并快速的实现文本数据特征词抽取和自动归类。本系统结合Spring MVC框架进行架构,采用JSP动态页面实现本系统的表示层,采用前端控制器DispatcherServlet来查找Controller实现系统的控制层。系统的业务逻辑层主要由数据源传输、文本预处理、文本聚类分析、聚类结果处理等模块组成。在文本预处理模块,对文本分词、停用词过滤、特征提取、文本向量空间生成的过程进行并行化设计并实现。最终将非结构化的文本数据转化为结构化的文本向量。在聚类分析模块中,设计并行化K-Means聚类算法对文本向量数据进行分布式聚类分析。针对K-Means聚类算法初始点选取的随机性问题,提出了Canopy算法来进行初始点的选取,提升聚类有效性。最后搭建Hadoop集群,对并行后的文本聚类算法进行了可扩展性实验、查准率实验以及加速比实验。实验结果表明进行并行化后的算法,聚类结果良好并且聚类效率较高。运用JMeter对系统进行性能测试,测试结果表明系统的响应时间以及并发用户数量等满足系统非功能需求。本文结合Hadoop云计算平台以及Spring MVC框架设计并实现了分布式文本聚类系统。该系统降低了大数据量下文本处理的硬件需求,让企业在大量的文本数据处理中,无需预先进行人工标注,便可以对文本主题进行抽取并进行文本信息的分类管理,为后续企业文本信息检索提供以及个性化推荐提供基础。该系统有效降低大数据量下的文本数据处理人力成本以及硬件需求。有利于员工高效快捷的处理海量文本数据,提取有效信息。因此,具有较高的研究以及实现的价值。