【摘 要】
:
文本聚类是数据挖掘和信息检索领域的一个重要研究方向。随着互联网的普及,网络上堆积的数据信息飞速增长,且大部分数据以文本的形式存储。如何挖掘网页上的海量文本信息已经
论文部分内容阅读
文本聚类是数据挖掘和信息检索领域的一个重要研究方向。随着互联网的普及,网络上堆积的数据信息飞速增长,且大部分数据以文本的形式存储。如何挖掘网页上的海量文本信息已经成为计算机科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理提供了一条有效的途径。文本聚类技术作为一种无监督的机器学习方法,可由计算机自动进行,通过比较文本的相似性,发现文本内在特征及分布规律,不单可对web文本进行有效的组织,还可以形成分类模板用来指导web文本的分类,以便检索和阅读。近年来文本聚类在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。云计算的兴起,为分布式并行计算提供了更多的框架,文本挖掘技术的分布式实现也开始被越来越多的研究人员所关注。本文对文本聚类进行了分析研究,介绍了文本聚类的相关理论知识,讨论了主要的文本聚类算法及其技术。并对现今热门的开源分布式计算项目Hadoop的架构进行了研究,重点分析了Hadoop的关键技术:Hadoop分布式文件系统以及Hadoop的MapReduce计算模型。在这基础上,设计了基于Hadoop的分布式文本聚类算法。整个聚类过程包括三个部分:文本特征向量TFIDF的分布式计算,文本间余弦距离矩阵的分布式计算及聚类算法Bisecting K-Means的分布式实现。最后,使用20newsgroup文本数据集在系统上进行了实验。基于Hadoop的分布式文本聚类能得到较好的聚类结果,并在分布式具有很大的扩展性,能加快聚类的速度,有效地将文本聚类技术应用到分布式框架中。
其他文献
本文阐述了绿色医院的相关概念和建筑设计要点,并对医院建筑的布局、微环境、建筑指标等进行了简要分析,并给出相应的建议,综合考虑各专业相关因素,制定切实可行的设计方案。
新中国成立60年来,作为链接城乡基地和桥梁、统筹城乡发展关节点的小城镇,其地位和作用不断得到提升。通过对历史资料的梳理和统计数据的分析,将60年来的我国小城镇发展划分
随着服务经济时代的到来,服务贸易在一国经济中发挥越来越重要的作用。20世纪90年代以来,中美双边贸易中,中国处于顺差的地位,但主要发生在货物贸易中,而服务贸易则一直处于
我国的人均淡水资源拥有量少,水资源时空分布极不均衡。随着社会的飞速发展,生活和生产需水量的迅速增长已使各国、尤其是地处干旱半干旱地带的国家以及如中国这种分布着较大
文章通过对国内外民事诉讼立法例的比较,对管辖权异议的概念进行了重新界定。提出我国在以后修订民诉法时应当规定法院的告知义务,并以此作为当事人行使管辖异议权利的前提。
高度的警民信任关系是警民关系的体现,是公安机关履行职能的保障,是国家长治久安、社会稳定发展的基石。本文以新型城镇化进程中的警民信任关系为研究对象,以苏州高新区为例,
司法改革必须遵循司法活动的规律,而司法权的合理配置又是司法改革的核心内容。因此,如何遵循司法规律科学合理地配置司法权,就成为理论界和实务界关注的热点和难点问题。中
"企业公民"是世纪交替之际,从企业社会责任概念延伸出的新概念。所谓企业公民,就是指按照法律和道德的要求享有经营谋利的权利,同时履行对利益相关者和社会的责任的企业。其
<正>卵巢卵泡膜细胞瘤是卵巢性索间质肿瘤,相对少见。现就1999年1月至2006年7月我院超声检查及术后病理证实为卵泡膜细胞瘤的26例超声资料作回顾性分析。资料与方法一、一般
法国印象派是西方美术史上一个重要流派 ,日本浮世绘对印象派的产生和发展起到了积极作用。本文从分析历史文化背景入手 ,探讨了日本浮世绘对印象派绘画的具体影响