基于条件随机场的藏文人名识别技术研究

来源 :南京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:rui1986911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词
其他文献
本文回顾了约瑟夫森结阵太赫兹信号源的研究背景和本征约瑟夫森结的发展,详细介绍了高温超导单晶Bi2 Sr2 CaCu2 O8本征约瑟夫森结阵太赫兹源的样品制备、工作原理、自热现象
德兴矿集区是我国重要的Cu-Au-Mo-Pb-Zn-Ag矿产资源产地,张家畈金矿远景区位于德兴斑岩铜矿田的北西部.选取张家畈成矿远景区深部的矿化花岗闪长斑岩作为研究对象,对其进行了
耳机回放音频时,大脑感知到的音频的主观声场宽度受其响度级、耳间互相关系数和频率成分的影响显著.采用虚拟声学指针作为参考信号,针对响度级在60~80方,耳间互相关系数在0~1
本文在重新选择回归数据时期的基础上,通过二分值因变量模型,对我国上市的财务困境作了实证研究,得出的结论在预测的准确率上与多数学者的结论相差甚远.作者对此提出了看法,