基于多特征融合的汉语语句相似度计算

来源 :哈尔滨商业大学 | 被引量 : 0次 | 上传用户:shion31208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语句相似度计算是在分析汉语语句相关特征之后,根据语句特征设定语句相似度的计算标准,结合这些标准来计算出一个具体数值。汉语语句相似度计算作为一项非常重要的实用技术,长期以来作为研究人员关注的热点和难点,并被广泛应用于自然语言处理的众多领域。文中详细介绍了汉语语句相似度计算的方法以及存在的困难,通过对关系向量模型的语句相似度计算方法进行解析,根据汉语语句的关键词、句长、词序等特征,提出了一种基于多特征融合的汉语语句相似度计算方法。该方法以关系向量模型为基础,通过深入研究汉语语句的特征,利用前后相邻词的共同出现对权重值向量进行加权处理,以调整不同特征词的权重。方法以关键词词形的相似度为重点,适当的考虑了语句的局部结构和同义词的情况。在综合分析表层特征和语句结构的基础上,本文对语句的相似度计算问题进行深入探索和创新,着重进行了以下几个方面的研究:1)分析汉语语句,找出其中与语句相似度有关的特征。这些特征对语句相似度影响程度不同,因此通过实验选取其中对语句相似度影响较大的特征(关键词、句长、词序等)用于相似度计算。2)提高了关键词和语句长度对关系向量模型影响的有效性,并加入了词序、非关键词等影响因素,使相似度计算的正确率得到提高。通过实验验证了提出方法在计算新闻标题相似度时的准确率较高。提出的相似度计算方法不仅在处理长度差较大的两个语句相似度时优于关系向量模型,而且发现在带标点符号以及不去停用词的情况下,语句相似度计算的准确率依然较高。
其他文献
现阶段电子控制单元与传感器在汽车上应用非常普遍,这使得汽车线束不断增加,传统的布线方式已无法满足汽车的发展要求。设计了一种基于LIN总线的车灯控制系统,并给出了详细的
新型农村社会养老保险(以下简称“新农保”)作为农村社会保障体系的重要子系统,是维护农村社会稳定、促进整个社会发展的重要路径。自2009年下半年起,尽管新型农村社会养老保险制
叙述了电热膜的一般概况及其发热特性;提出了该膜在实用中需要注意的问题;对电热膜在多领域中的应用也作了简要的介绍;同时论述了丝网印刷在电热膜成形工艺及电极加工中的重要作
目的探讨阿片类镇痛药物的不良反应。方法收集2014年1月至2015年1月临淄区妇幼保健院使用阿片类镇痛药物出现不良反应的38例患者的临床资料,统计患者的性别、年龄、用药类型
目的:探讨血清胆红素(BIL)浓度变化与冠心病(CHD)之间的关系。方法:将237例患者按冠状动脉造影结果分为冠心病组(CHD组)和非冠心病组(非CHD组),采用Gensini法计算冠脉病变积分(CSS),检测空
利用自粉煤灰中分离提取的粒径>44μm、表观密度>1.0g·cm-3的厚壁空心微珠为主要原料,加入适量的高铝水泥和聚合铝为粘结剂生产的不烧粉煤灰微珠隔热砖,具有热导率低,加热永
马达加斯加是现今世界上最重要的蓝宝石产地,以马达加斯加低品质蓝宝石为研究对象,运用紫外-可见光(UV-Vis)吸收光谱和X射线荧光光谱(XRF)分析其颜色成因并对热处理工艺进行
论文首先对"互联网+"时代下的信息安全形势和企业开展数据安全防护的必要性展开了分析,通过对当前企业面临的安全威胁进行剖析,得出企业重要数据来源以及泄漏途径。从而针对
车祸等致小腿中下1/3部损伤临床多见,易发生软组织缺损,创面难以愈合,影响骨、关节及肌腱的修复,治疗困难,必须用皮瓣修复。邻近非主干血管为带蒂皮瓣,因就近取材、切取方便
腹水是指各种原因引起腹腔内游离液体的积聚,是一种临床常见的病征.产生腹水的病因复杂,如心血管病、肝脏病、肾脏病、腹膜病、恶性肿瘤、营养障碍疾病、结缔组织病等.我院感