基于字形和字义的中文短文本语义相似度计算方法的研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:wangrui1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本语义相似度计算是自然语言处理领域中的关键技术之一,已有针对中文的方法存在以下问题:在字向量表示方面,中文汉字字形蕴含了丰富的语义信息,字典包含了每个字的字义信息,而已有方法未融合汉字字形语义信息以及字典字义知识;在短文本语义相似度计算方面,已有方法忽略了文本中字词位置信息及字词语义贡献度不同的特点,不能更好地学习文本的深层语义信息;在计算性能方面,已有语义相似度计算模型所需计算资源较大、计算速度较慢,对计算设备要求较高。针对以上问题,本文主要做了以下工作:(1)构建了汉字字形和汉字字义相关的数据集。基于爬虫获取了 3587个常用汉字的甲骨文、金文、小篆、隶书、简体中文、繁体中文的相应字形图像,基于新华字典电子版数据库提取并处理得到了 3587个常用汉字共12867条基本字义。为字向量表示提供数据支持。(2)提出了融合字形和字义的字向量表示方法GnM2Vec。本文融合字形及新华字典中的基本字义,构建了字形自编码器和字义编码器模型,最终获得每个字的512维字向量,为语义相似度计算模型提供字向量表示。通过近邻字计算、中文命名实体识别和中文分词实验对GnM2vec生成的字向量进行了测评。结果表明:在近邻字计算实验中,GnM2Vec高频字和低频字的近邻字计算结果均优于Word2Vec,提高了字向量稳定性;在中文命名体识别实验中,GnM2Vec较Word2Vec在测试集上F1值提高了 0.83%;在中文分词实验中,GnM2Vec较Word2Vec在测试集上F1值提高了 0.05%。(3)构建了基于字向量和Transformer的中文短文本语义相似度计算模型。模型首先使用GnM2Vec生成的字向量对两个输入文本进行表示,然后通过两个完全相同的Transformer网络对两个文本分别进行处理,最后通过相乘、作差、平方等一系列运算得到两个文本的语义相似度值。将本文模型与基于CNN的模型、基于LSTM的模型和基于Attention的模型进行了对比,结果表明:本文模型传递性测试和替换性测试F1值较其它模型分别至少提高了 3%、1%以上。(4)实现了模型压缩和加速。采用知识蒸馏方法对本文构建的中文短文本语义相似度计算模型进行压缩和加速,结果表明:压缩和加速后的模型较原始模型参数数量约减少88.11%,训练速度约提升86.82%,计算速度约提升82.38%,传递性测试和替换性测试F1值分别仅降低了 2%、1%。(5)实现了医疗领域知识问答系统。采用本文构建的中文短文本语义相似度计算模型实现医疗领域知识自动问答功能,并对问答准确率进行了测评,结果表明:本文构建的中文短文本语义相似度计算模型回答问题的准确率较基于CNN的模型提高了 7%,较基于LSTM的模型和基于Attention的模型提高了 2%。
其他文献
处于玻璃态的材料,随着时间会发生物理老化作用,材料的内部结构会随着时间发生松弛,有动力学特征不断变慢现象,表现为松弛时间随着老化时间不断增大。剪切熔融被认为是可以对
当今社会随着人工智能的发展越来越智能化,各种智慧化建筑层出不穷。同时,人们对服务于建筑室内的智能型服务机器人的需求也不断提升。目前大多数室内机器人的导航工作都是根
滞后型非线性现象在生物学中的各个领域普遍存在,但是用数学方法研究生物学中滞后型非线性现象的时间并不长,实验方法的局限性以及捕捉这种非线性过程的潜在机制的实验困难,
拉丝塔在线制备连续弱光纤光栅阵列是大容量、高精度、高可靠性光纤传感的核心关键技术之一,国际上仅有少数机构能够进行相关研究和制备。但是拉丝塔在线制备光纤光栅的过程
农药是农业生产活动中重要的农用物资,可以防治病虫害、维持作物正常生长,从而提高作物产量、作物质量,增加农业收入。面对作物病虫害,关于农药的选择和安全合理使用,以及对
光学频率梳(OFC)由一系列离散的、等间隔的频率成分组成,能够在一个频段内同时提供几个至几十个不同的频率成分,具有谱线数多并且间隔均衡、频率覆盖范围大等诸多优点,在光谱学
联合作战仿真训练通过采用相关的建模理论与方法,设计仿真模型来模拟特定的兵力对象和作战环境进而支持军事作战训练,这种训练方式将在未来的部队训练中发挥至关重要的作用。
无线传感器网络(Wireless Sensor Networks,WSN)作为21世纪的关键技术之一,得到了广泛的研究与应用。无线传感器网络在医疗、农业、环境监测和智能计量等许多应用场景中发挥
作为衡量区域可持续稳定发展的有力保障,网络结构韧性着眼于城市网络结构对区域应对冲击并恢复、保持或改善原有系统特征和关键功能的影响力,同时,也助力于提升区域安定,对区
基于对砂板乒乓球与传统乒乓球差异进行初步的探索,分析两者之间的密切关系,为砂板乒乓球运动有兴趣的爱好者和研究者提供理论参考,弥补该领域的研究空白,并推动该运动的发展