论文部分内容阅读
短文本语义相似度计算是自然语言处理领域中的关键技术之一,已有针对中文的方法存在以下问题:在字向量表示方面,中文汉字字形蕴含了丰富的语义信息,字典包含了每个字的字义信息,而已有方法未融合汉字字形语义信息以及字典字义知识;在短文本语义相似度计算方面,已有方法忽略了文本中字词位置信息及字词语义贡献度不同的特点,不能更好地学习文本的深层语义信息;在计算性能方面,已有语义相似度计算模型所需计算资源较大、计算速度较慢,对计算设备要求较高。针对以上问题,本文主要做了以下工作:(1)构建了汉字字形和汉字字义相关的数据集。基于爬虫获取了 3587个常用汉字的甲骨文、金文、小篆、隶书、简体中文、繁体中文的相应字形图像,基于新华字典电子版数据库提取并处理得到了 3587个常用汉字共12867条基本字义。为字向量表示提供数据支持。(2)提出了融合字形和字义的字向量表示方法GnM2Vec。本文融合字形及新华字典中的基本字义,构建了字形自编码器和字义编码器模型,最终获得每个字的512维字向量,为语义相似度计算模型提供字向量表示。通过近邻字计算、中文命名实体识别和中文分词实验对GnM2vec生成的字向量进行了测评。结果表明:在近邻字计算实验中,GnM2Vec高频字和低频字的近邻字计算结果均优于Word2Vec,提高了字向量稳定性;在中文命名体识别实验中,GnM2Vec较Word2Vec在测试集上F1值提高了 0.83%;在中文分词实验中,GnM2Vec较Word2Vec在测试集上F1值提高了 0.05%。(3)构建了基于字向量和Transformer的中文短文本语义相似度计算模型。模型首先使用GnM2Vec生成的字向量对两个输入文本进行表示,然后通过两个完全相同的Transformer网络对两个文本分别进行处理,最后通过相乘、作差、平方等一系列运算得到两个文本的语义相似度值。将本文模型与基于CNN的模型、基于LSTM的模型和基于Attention的模型进行了对比,结果表明:本文模型传递性测试和替换性测试F1值较其它模型分别至少提高了 3%、1%以上。(4)实现了模型压缩和加速。采用知识蒸馏方法对本文构建的中文短文本语义相似度计算模型进行压缩和加速,结果表明:压缩和加速后的模型较原始模型参数数量约减少88.11%,训练速度约提升86.82%,计算速度约提升82.38%,传递性测试和替换性测试F1值分别仅降低了 2%、1%。(5)实现了医疗领域知识问答系统。采用本文构建的中文短文本语义相似度计算模型实现医疗领域知识自动问答功能,并对问答准确率进行了测评,结果表明:本文构建的中文短文本语义相似度计算模型回答问题的准确率较基于CNN的模型提高了 7%,较基于LSTM的模型和基于Attention的模型提高了 2%。