基于BiLSTM-CRF的中医文言文文献分词模型研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:qleeanna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。
其他文献
The title complex [Sr3(pda)2(Hpda)2(H2O)2]n·2nH2O(H2pda = pyridine-2,6-dicar- boxylic acid) has been prepared under solvothermal conditions. It has been ch
针对有监督的深度神经网络文本生成模型容易造成错误累积的问题,提出一种基于强化对抗思想训练的文本生成模型。通过将生成对抗网络鉴别器作为强化学习的奖励函数及时指导生成模型优化,尽量避免错误累积;通过在生成过程中加入目标指导特征帮助生成模型获取更多文本结构知识,提升文本生成模型真实性。在合成数据和真实数据集上的实验结果表明,该方法在文本生成任务中,较之前的文本生成模型在准确率和真实性上有了进一步的提高,
针对公安视频监控系统前端摄像机点位部署评估的问题,首先采用以结果为导向的方法,将单个防控区域内摄像机之间的协同防控风险关系进行定义和赋值,将问题转换为可量化的数学模型,该模型的实质是求解带权值完全无向图的Hamilton回路(即TSP问题);然后引入蚁群算法求解该问题,通过分析基本蚁群算法的数学特征,指出了造成基本蚁群算法收敛速度慢、易求得局部最优解的原因,并引入风险熵函数,在分析其数学特征的基础
信息化教学中,通过对教学资源重新设计,融入信息化教学平台及各种信息化手段,使整个教学过程体现以教师为主导,学生为主体的教学方式,并实行分层式培养。文中以“中断按键控
目的 探讨直肠癌造口患者围手术期的护理策略。方法 根据患者围手术期各个阶段的临床特点,有针对性地采取心理护理、一般护理等方法。结果 36例患者无一例发生并发症,且掌握了
<正> 不同国家的自然条件和技术条件不同,所得木材切削参数各异.因此,必须逐步建立起我国自己的一整套木材切削参数. 我所与东北林学院木机系协作,于一九七三年开始对木材切