基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:fremar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用.为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌B E RT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型.以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升.本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南.
其他文献
党的建设是新时代中国特色社会主义建设的重要政治保障,随着政治巡视制度的不断完善及党建工作新常态的发展,创新国企党建工作对发挥国企政治使命和经济使命的重要基础.本文
免疫避孕疫苗作为一种新的节育措施近年来越来越受关注,其中以hCGβ为基础的避孕疫苗是近年来研究得最为成熟的一种;通过在生育期妇女体内诱导产生抗hCGβ体液免疫以中和hCG生
当下基层行政事业单位会计人才是我国会计人才队伍中重要的组成部分,推动着行政事业单位的发展.我国基层行政事业单位对会计人才的需求不断增加,会计人才队伍建设的矛盾日益
档案数字化的进程势不可挡,它从载体、样式、管理流程等方面对传统的档案工作进行了颠覆式的革新,作为对原始档案的再处理,档案数字化工作必须以保持与原始档案的全面同一性
目的通过比较静脉注射丙种球蛋白(intravenous immunoglobulins,IVIG)联合小剂量甲基强的松龙(Methylprednisolone,MPSL)和静脉注射丙种球蛋白治疗IVIG无反应型川崎病(Kawasa