一个并行的文本聚类混合算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:TORO_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类.
其他文献
本文从毕业设计教学质量现状入手,详细分析了教师、学生、环境等因素在毕业设计教学过程各环节对毕业设计教学质量的影响,围绕强化质量意识、深化教学改革、严格管理考核和完
职业学校传统的教学大纲对知识较为重视,对技能的要求往往不够具体,可操作性不强,缺乏对能力的鉴定标准,特别是在对学习者的职业态度方面涉及较少。根据现行的培养目标,企业
目的将使用闭合复位、空心加压螺钉治疗新鲜股骨颈骨折的155例病人资料采用回顾性方法进行研究,从中分析本治疗方法的骨折愈合率和股骨头坏死等方面的情况.方法对骨折类型、
教育质量是教育改革和发展的生命线.地方高师在提高教育质量上有其特殊性的现实的紧迫性.制约地方高师教育质量的原因有多种多样,其中学校办学目标定位、教学内容与课程体系
根据牵引弓的设计原理,结合临床实践,在现有张力弓基础上对持针垫进行了改进,构造简单,由一个针垫与偏心轮组成(图1).该牵引弓可夹持直径2~3 mm克氏针,主要优点是使用方便、可