基于相似中心的k-cmeans文本聚类算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:haohaojc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的文本聚类算法。首先,度量文档之间的相似性,然后按照文档之间的相似性递减排序,选择序列最前面的k个文档作为初始聚类中心,对于每个剩余的文档(没有被选为初始簇中心的文档)根据其与存在的簇中心的相似性,将其分配到相似性最大的簇中,更新簇均值,连续迭代,直至均值不变,从而得到更加稳定的聚类结果。实验结果表明,提出的算法在宏平均聚类精度和宏平均召回率上有显著提高,产生了质量较好的聚类效果。
其他文献
农民增收是新农村建设核心问题。应用灰色关联度数学模型,分析影响江苏"十五"期间农民收入的主要因素以及存在问题,并对未来几年如何增加农民收入提出建议。
准晶体是一种介于晶体和非晶体之间的固体。按照其准周期维数的分类方法分为一维、二维、三维准晶体,具有力学性能、电学性能和磁性能。利用其优良的性能特点,可将其应用于表
I:Pv6是下一代互联网采用的核心协议,现行的IPv4向IPv6过渡势在必行。高校走在IPv6网络研究、应用的前沿,通过分析IPv4向IPv6过渡的必然性,结合高校校园网络IPv6的现状和演变
首先,分析了东南亚金融危机对中国纺织业出口市场的影响,产生这种影响的原因在于汇率、出口结构和投资。其次,研究了美国次贷危机引发的金融危机的影响,影响存在的原因归结为
中小企业融资问题是一个世界各国普遍面临的难题,具有复杂性、综合性、交叉性特点。传统的规范性、定性化研究方法已经不能对这一问题进行有效解决,必须充分结合数学模型、仿
在全球变暖、极端天气事件频发的背景下,对农业脆弱的国家,适应策略尤为重要。文章在阐述全球变暖和气候变化现状的基础上,分析了农业对气候变化与波动的脆弱性,以及气候变化
傅作义作为著名的爱国将领,他不仅仅是一位军事家,伟大的爱国者,而且是一位有着系统政治、经济、教育思想的建设者。自1931年就任绥远省主席到1937年抗战全面爆发,傅作义抱着“天
从城乡关系理论基础及形成机制入手,对城乡一体化的本质进行分析,并在此基础上将研究范围缩小至县域城乡一体化空间布局,通过对现状的分析和对实践经验的总结,提炼了推进山西
<正>爱美之心,人皆有之。不论男女老少,谁不希望自己时时年轻美丽?而美丽的根本途径,就是要给脾胃"健美",因为脾胃的健康程度,最能影响你的美丽。脾胃,恐怕是人体最早衰老的
神权法思想是中国奴隶社会时期占支配性地位的法律思想,到春秋战国时期虽已衰落,但仍对后世产生重大影响。以孔孟为代表的先秦儒家的法律思想直接继承于西周,加上当时的社会