基于字形和字义的中文短文本语义相似度计算方法的研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户：wangrui1006

【摘要】

：

短文本语义相似度计算是自然语言处理领域中的关键技术之一,已有针对中文的方法存在以下问题:在字向量表示方面,中文汉字字形蕴含了丰富的语义信息,字典包含了每个字的字义信

【作者】

：

张镤月

【出处】

：

西安科技大学

【发表日期】

：

2004年期

【关键词】

：

字形字义字向量语义相似度计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

短文本语义相似度计算是自然语言处理领域中的关键技术之一,已有针对中文的方法存在以下问题:在字向量表示方面,中文汉字字形蕴含了丰富的语义信息,字典包含了每个字的字义信息,而已有方法未融合汉字字形语义信息以及字典字义知识;在短文本语义相似度计算方面,已有方法忽略了文本中字词位置信息及字词语义贡献度不同的特点,不能更好地学习文本的深层语义信息;在计算性能方面,已有语义相似度计算模型所需计算资源较大、计算速度较慢,对计算设备要求较高。针对以上问题,本文主要做了以下工作:(1)构建了汉字字形和汉字字义相关的数据集。基于爬虫获取了 3587个常用汉字的甲骨文、金文、小篆、隶书、简体中文、繁体中文的相应字形图像,基于新华字典电子版数据库提取并处理得到了 3587个常用汉字共12867条基本字义。为字向量表示提供数据支持。(2)提出了融合字形和字义的字向量表示方法GnM2Vec。本文融合字形及新华字典中的基本字义,构建了字形自编码器和字义编码器模型,最终获得每个字的512维字向量,为语义相似度计算模型提供字向量表示。通过近邻字计算、中文命名实体识别和中文分词实验对GnM2vec生成的字向量进行了测评。结果表明:在近邻字计算实验中,GnM2Vec高频字和低频字的近邻字计算结果均优于Word2Vec,提高了字向量稳定性;在中文命名体识别实验中,GnM2Vec较Word2Vec在测试集上F1值提高了 0.83%;在中文分词实验中,GnM2Vec较Word2Vec在测试集上F1值提高了 0.05%。(3)构建了基于字向量和Transformer的中文短文本语义相似度计算模型。模型首先使用GnM2Vec生成的字向量对两个输入文本进行表示,然后通过两个完全相同的Transformer网络对两个文本分别进行处理,最后通过相乘、作差、平方等一系列运算得到两个文本的语义相似度值。将本文模型与基于CNN的模型、基于LSTM的模型和基于Attention的模型进行了对比,结果表明:本文模型传递性测试和替换性测试F1值较其它模型分别至少提高了 3%、1%以上。(4)实现了模型压缩和加速。采用知识蒸馏方法对本文构建的中文短文本语义相似度计算模型进行压缩和加速,结果表明:压缩和加速后的模型较原始模型参数数量约减少88.11%,训练速度约提升86.82%,计算速度约提升82.38%,传递性测试和替换性测试F1值分别仅降低了 2%、1%。(5)实现了医疗领域知识问答系统。采用本文构建的中文短文本语义相似度计算模型实现医疗领域知识自动问答功能,并对问答准确率进行了测评,结果表明:本文构建的中文短文本语义相似度计算模型回答问题的准确率较基于CNN的模型提高了 7%,较基于LSTM的模型和基于Attention的模型提高了 2%。

其他文献

物理凝胶在稳态剪切流场下的物理老化过程的流变学研究

处于玻璃态的材料,随着时间会发生物理老化作用,材料的内部结构会随着时间发生松弛,有动力学特征不断变慢现象,表现为松弛时间随着老化时间不断增大。剪切熔融被认为是可以对

学位

正交振荡叠加旋转流变学物理凝胶物理老化

基于深度学习的室内视觉导航技术研究

当今社会随着人工智能的发展越来越智能化,各种智慧化建筑层出不穷。同时,人们对服务于建筑室内的智能型服务机器人的需求也不断提升。目前大多数室内机器人的导航工作都是根

学位

室内导航视觉导航语义分割栅格地图A*算法

时滞Fitzhugh-Nagumo神经网络滞后分岔现象分析及应用

滞后型非线性现象在生物学中的各个领域普遍存在,但是用数学方法研究生物学中滞后型非线性现象的时间并不长,实验方法的局限性以及捕捉这种非线性过程的潜在机制的实验困难,

学位

Fitzhugh-Nagumo神经网络时滞滞后Hopf分岔

连续弱光纤光栅性能监测关键技术研究

拉丝塔在线制备连续弱光纤光栅阵列是大容量、高精度、高可靠性光纤传感的核心关键技术之一,国际上仅有少数机构能够进行相关研究和制备。但是拉丝塔在线制备光纤光栅的过程

学位

光栅性能监测光时域反射光波分复用数字信号处理异常判断

基于领域本体的农药信息语义查询系统研究与实现

农药是农业生产活动中重要的农用物资,可以防治病虫害、维持作物正常生长,从而提高作物产量、作物质量,增加农业收入。面对作物病虫害,关于农药的选择和安全合理使用,以及对

学位

农药信息领域本体语义查询NLPIR分词系统

基于光注入下电流调制1550nm垂直腔面发射激光器获取光学频率梳的研究

光学频率梳（OFC）由一系列离散的、等间隔的频率成分组成,能够在一个频段内同时提供几个至几十个不同的频率成分,具有谱线数多并且间隔均衡、频率覆盖范围大等诸多优点,在光谱学

学位

光注入电流调制光学频率梳(OFC)1550nm垂直腔面发射激光器(1550nm-VCSEL)

基于惯性传感器的人体动作识别技术研究

联合作战仿真训练通过采用相关的建模理论与方法,设计仿真模型来模拟特定的兵力对象和作战环境进而支持军事作战训练,这种训练方式将在未来的部队训练中发挥至关重要的作用。

学位

人体动作识别可穿戴传感器长短期记忆网络残差学习卷积网络注意力机制

基于6LoWPAN的无线传感器网络网关的设计与制作

无线传感器网络(Wireless Sensor Networks,WSN)作为21世纪的关键技术之一,得到了广泛的研究与应用。无线传感器网络在医疗、农业、环境监测和智能计量等许多应用场景中发挥

学位

WSN6LoWPAN自组网UDPDHCP

中国地级及以上城市网络结构韧性测度研究

作为衡量区域可持续稳定发展的有力保障,网络结构韧性着眼于城市网络结构对区域应对冲击并恢复、保持或改善原有系统特征和关键功能的影响力,同时,也助力于提升区域安定,对区

学位

地理信息科学空间分析城市网络网络结构韧性网络簇结构空间大数据

砂板乒乓球与传统乒乓球差异比较研究

基于对砂板乒乓球与传统乒乓球差异进行初步的探索,分析两者之间的密切关系,为砂板乒乓球运动有兴趣的爱好者和研究者提供理论参考,弥补该领域的研究空白,并推动该运动的发展

学位

砂板乒乓球传统乒乓球差异比较

基于字形和字义的中文短文本语义相似度计算方法的研究

其他学术论文