一种提高文本聚类算法质量的方法

来源 :同济大学学报(自然科学版) | 被引量 : 0次 | 上传用户:dabing_12130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在
其他文献
企业财务分析是根据企业的资产负债表、损益表、现金流量表等会计报表采用专门的方法.系统分析和评价企业在一定时期内的经营成果、财务状况及其变动趋势.目的是了解过去、评价