基于语义簇的中文文本聚类算法

来源 :吉林大学学报(理学版) | 被引量 : 0次 | 上传用户:chj0821031
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对中文文本聚类受语义、语法、语境等因素的影响,在使用传统向量空间模型向量化表征后,文本向量之间相互独立,语义关系被忽略,影响聚类分析结果的问题,提出一种基于语义簇的中文文本聚类算法.该算法根据词共现的原理和语义相关性,首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重,利用特征词的搭配向量构建语义簇;然后使用特征词及其搭配词的权重,将特征词向语义簇中心进行空间变换,求得嵌入语义信息的文档向量;最后利用文档向量进行K-means聚类分析.实验结果表明,该向量化表示方法,能有效提高文本向量对文本语
其他文献
在国家测绘局网上发布的等差分纬线多圆锥投影世界地图上选择参考点,利用参考点的坐标值计算投影参数进行正解变换时,因为极圈以上没有参考点,所以在极圈以上的高纬地区存在
本文分为两个部分,第一部分介绍王弼的身世、学术传承,以及王弼所生活的时代特征,说明青年才俊王弼在魏晋玄学乃至在中国哲学发展史中的重要地位;并结合王弼的传记材料,初步介绍王
【正】 关于北宋王朝首都东京城池图,近数十年来有关学者作了些初步的绘制,最有代表性的,前有李长傅氏在他的《开封历史地理》一书中所附制的简图。之后在1977年9月份《文物
<正>2018年以来,因为行业仍处于高速增长期,不断有新的品牌涌入到集成灶行业。2019年初的数据显示,浙江嵊州涉及集成灶企业200余家,重点企业有70~80家之多;浙江海宁涉及企业10
《唐张仁宪神道碑》现存河北文安县相公庄,立于唐大中二年(848),本文对该神道碑所反映的张仁宪家族历史及其家风作了简要的分析,并依据《阎好问墓志》,分析了张仁宪之孙、卢
蔚县单堠村关帝庙现存建筑相对完整。它始建于明正德年间,后历经迁建、扩建和多次重修。关帝庙及其戏台无论从时间的延续性,还是从建筑典型性来看,都可视为华北区域村落庙宇
列宁的出版自由思想通常被理解为他在十月革命后发表的许多激烈批判资产阶级出版自由的言论。这只是表现出他在某种特殊情形下对资产阶级出版自由的一方面的认识,列宁还有更
本文介绍了入侵检测系统中的行为分析技术。针对HIDS异常检测技术中的静态行为分析技术和动态行为分析技术的技术原理、发展历史、研究现状和应用效果进行了分析,尤其对系统
针对目前高职班级管理单纯依赖行政和制度层面管理,出现管理难、难管理的状况,试从礼仪文化视角,探讨如何突破单一管理模式,实现高职班级管理由他律走向自律,提高高职班级管
钱陈群撰文并书的《修博野县学记》册,记述了清乾隆初年修缮直隶博野县学的始末。捐俸修学者为博野尹会一,他与钱陈群身世相似,志趣相同,皆为雍正、乾隆年间的赫赫名臣。两人