基于语义的文本聚类研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:sxquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的机器学习方法,能有效地组织文本信息,应用非常广泛,而大部分文本聚类算法都采用向量空间模型表示文本对象。因此,向量空间模型的问题也就成为文本聚类存在的问题之一。  本文主要研究的文本聚类的对象是中文文本信息,而中文文本信息存在着同义词或近义词等特定的自然语言现象,导致文本特征向量空间维度过高,严重影响了文本聚类。本文针对特征空间维度过高这个问题做了深入的研究,主要工作有:  (1)针对文本向量空间模型中存在的语义关联问题,提出将特征词归并为概念特征或语义特征的方法来减少文本特征向量空间中各维度的关联度和文本数据的语义损失。  (2)提出了语义特征的两个属性--概念频率和概念文档频率,同时给出了一个语义特征加权的方法即概念权重的计算方法,更好地描述了语义特征对各个文本的影响程度。  本文通过研究《知网》知识系统中词条之间的概念属性距离及其相似度计算方法,构建出基于语义的词条-文本矩阵,采用基于语义特征的文本表示方法,给出了基于语义特征的文本向量空间模型的设计方法,最后提出了基于语义的文本聚类算法。通过采用快速简单的K-means聚类算法实现自适应基于语义的文本聚类算法的对比实验,证明了基于语义特征的文本表示方法得到的文本模型中文本特征词之间的语义损失减少了,文本特征向量的维度也降低了36.90%~38.95%,同时文本聚类综合评定值达到了76.59%,相对于不基于语义的文本聚类综合评定值提高了0.79%,达到中文文本聚类算法改进的目的。
其他文献
随着HT-7、EAST托卡马克物理实验的不断深入,更多的物理论断应用到实验中来,数据量较过去有了爆发性的增长,信号采样频率、数据存取速率、网络带宽等方面都有了新的要求。不
学位
专利信息作为重要的信息资源,越来越受到人们的重视。目前,专利分类采用传统的手工分类方法,存在分类周期长、费用高、效率低、一致性差等缺点。近年来,随着专利申请数量的迅
车身是汽车各大总成中极为重要的一部分,新车型的开发首先是新车身的开发,其开发周期,制造成本约占整车的50%左右。车身外形各曲面片要求光滑拼接,圆滑过渡,遵从光顺原理,其
基于计算机网络传输的远程数字视频监控系统弥补了传统监控系统因专线布局而限制传输距离的不足,使监控主体与客体摆脱了地理位置的束缚,理论上可以相隔任意远的距离,只要通过计
现今标准领域成为一个热门话题,我国在标准领域起步较晚,所以我们要参考国际先进的标准技术信息研制情况从而制定有利于我国标准发展的政策。参考热点信息所具有的行业属性情况
树木的模拟是计算机图形学在林学可视化领域应用的前沿课题之一,树木的形态结构在其生长过程中起着重要的作用,在树几何建模的过程中,真实地模拟树木枝条的自然弯曲状态是一
近年来,伴随着互联网的快速发展,如何有效获取网络信息和互联网资源的增长之间的矛盾日益突出。通用搜索引擎简单的宽度优先或深度优先搜索策略,由于需要遍历网络中的所有资
随着计算机和互联网技术的迅速发展和普及,人们获得的信息日益丰富,如何从这些丰富的信息中快速、准确的获取有用的信息,如何从海量的文档中抽取出事件发展的趋势报告等变得越来
伴随着视频编解码和无线通信技术发展,在会议、办公、监控等有实时视频传输业务的环境中,迫切需要实现箱机分离,摆脱线缆束缚,有线变无线,提供高品质的视频画面,给工作和生活带来便
随着EAST实验深入进行,用实验人员对EAST数据采集控制系统提出了新的要求:多用户权限管理的需求,友好简洁的用户体验,针对性、实时性日志更新等。   本文设计并实现了B/S
学位