基于同义词词林和知网的词语相似度优化算法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhanggang406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语是自然语言处理的最小单位,词语相似度研究在自然语言处理的各个领域占有非常重要的地位,同时作为人工智能领域中一项重要应用,并被广泛应用于信息检索、词义消歧、机器翻译、语音自动摘要、分类和聚类等方面。特别是在云时代的来临,大数据越来越受人们关注,人们逐渐习惯于利用计算机进行数字化处理数据,因此词语相似度研究前景越来越广阔。  本文主要分析基于语义资源的词语相似度算法,就现有的语义资源中,只有同义词词林和知网比较规范,内容完备,结构合理,更容易用于科学研究。同义词词林是一种具有编码的层次结构树可以通过语义距离,信息量,或者利用层次深度,区域密度来计算两个词语的相似度。知网主要使用概念与义原的结构进行词语相似度计算,通过化整为零的方式,将概念分解为多个义原来进行计算。通过对经典算法具体分析,发现其中存在一定局限性,本文作者针对四个问题分别提出优化算法:第一,提出词林和知网的综合加权算法(CWA)解决在这两个语义资源中词语相似度算法太过于依赖专家权威,过于主观性的问题;第二,提出词林的信息量应用在知网上的算法(AIA)解决知网中的相同的义原结构的词语,相似度区分偏差的问题;第三,提出基于词林的义原相似度算法(CS)解决具有不同第一基本义原的词语在知网上的相似度区分不够准确的问题;第四,提出词林和知网的词语相似度传递性算法(TA)解决不在同一棵编码树上的词语在词林中没有进行区分相似度的问题。  通过分析具体实验数据:CWA算法可以有效稳定词语相似度,可以在一定程度修复主观性问题;AIA算法可以将明显不具有相同词语相似度的同义原结构的词语分辨出来;CS算法可以有效区分一个词语对于多个不具有相同第一基本义原的词语的相似度;TA算法对不在同一棵编码书上的词语相似度给出了准确相似度,有效地做出了区分。
其他文献
在现代信息社会中,数字签名技术已经被广泛的应用于各个领域以提供数据一致性校验和授权认证。在标准的数字签名中,任何人都能够验证签名的有效性,然而在很多应用中我们需要
随着数据采集和数据存储技术的飞跃发展,用于机器学习的数据集规模越来越大,利用单个学习器不一定能很好地解决某些学习问题。为了能够提高学习器的泛化能力,有学者提出用集
华源热力供暖公司实时数据采集传输管理系统以实际的业务需求为背景,解决了如何将电厂工业控制网中的实时数据引入到供暖公司内部管理网的问题,同时为供暖公司相关用户提供了
近些年来,通信事业发展迅速,各种新技术的出现,使人们对通信质量的要求越来越苛刻,以致频谱资源越来越紧张。在保证良好通信质量的情况下,如何提高频谱利用率,已经成为一个难
RFID技术被认为在二十一世纪最有发展潜力的技术之一,目前在很多领域得到了应用,作为RFID应用的中枢系统,RFID中间件的性能直接影响到整个RFID系统的实施。而中间件系统性能
在数字近景摄影测量中,借助于特制的人工靶标,可快速便捷地完成同名点匹配、三维立体重建和相机定姿定位等摄影测量任务。然而,随着复杂环境和缺乏纹理区域的工程应用增多,现有测
学位
随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越不能满足人们的需要,以汉语内涵语义分析作为着眼
切割下料问题广泛存在于国民经济生产的各大行业中,例如机械制造业、服装加工业、家具制造业、木材加工业以及皮革制品制造业等。随着信息化产业和计算机技术的快速发展,先进
对于金融信息服务而言,用户希望能够全面掌握一个公司或个股的重大事件以及事件的前因后果。金融门户网站存在着覆盖面不广和众多公司的相关新闻混杂在一起的缺点,与此同时,