基于多特征融合的哈萨克文人名实体识别研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:stwl1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是根据各种识别和搜索技术识别输入的文本对象中的人名实体,机构名实体,地名实体。命名实体识别在自然语言处理,实体链接,信息检索和医学领域信息的处理等范围被广泛利用。由于人名成为极其关键的识别对象,因此人名识别是命名实体识别中最具有挑战性的一种关键的任务。与其他语言的命名实体识别相比,哈萨克语人名识别还处于初步的研究状态。本论文完成的研究从中如下:本文研究并实验了基于统计模型的哈萨克语人名识别。由于哈萨克语属于阿勒泰语系中的突厥语族,因此文字构成有着黏着性特点。通过大量的阅读跟哈萨克语语法和单词构成特点的资料获得了对哈萨克语命名实体的知识,本文从哈萨克语黏着性特征入手,具有人名识别特征的词干,音节,字符串,后缀等特征来对哈萨克语单词进行切分和分析,用最小的语言特征单元获得了更有效的识别信息,然后拆分的词干,人名词典,字符串,长度等特征添加到条件随机场中。通过对比实验确定了对这些特征适合的模型窗口大小,建立了人名识别模型并达到了较好的识别效果,充分弥补了哈萨克人名识别上的不足。该方法人名识别的准确率,召回率和F值分别达到了92.31%,91.56%和91.93%。由于维吾尔语人名结构跟哈萨克语人名有相同之处,因此维吾尔语单词进行了以最小的语言特征单元为标注的拆分,利用同样的特征模板对维吾尔语人名进行了识别研究,实验结果显示,该方法对维吾尔语人名识别可行的并人名识别的准确率,召回率和F值分别达到了91.92%,90.42%和91.16%。通过对哈萨克语人名进行识别过程中,意识到词干提取的必要性。因此本文分析和研究哈萨克语词干词缀的结构规则,本文采用统计词干提取规则中的N-gram语言模型来对哈萨克语词干进行了提取,实验结果显示哈萨克语词干提取的准确率为78.34%。
其他文献
微细电火花加工具有非接触性、无需考虑材料硬度和可加工任何导电材料等特点,在特种加工领域得到了广泛应用。在微小孔加工等特殊加工环境下,传统电火花加工过程会因放电产物
由于干扰普遍存在于实际应用当中,因此干扰的抑制和抵消问题一直是控制工程领域研究的热点。近些年来,基于干扰观测器控制(DOBC)的理论受到学者们广泛关注和大量研究,并成功
新中国蒙古文报业是我国社会主义新闻事业的重要组成部分,因此在社会主义新闻事业发展过程中有着不可代替的地位。建国后中国共产党非常重视各民族的共同发展,不但着重发展了
锡林郭勒人民广播电台自1958年建立至今,已记载59年的光辉历史。在这59年间,锡林郭勒人民广播电台蒙古语广播在与时俱进的同时不断完善和加强改革。本文从新闻理论、媒介经营
在当前的国内公共安全领域中,基本上仍然采用纯手工的方式对刑侦现勘图像进行标注,这种方式不仅效率低下,并且带有强烈的主观性,针对这一现状,本文在阅读大量国内外参考文献
细分曲面技术具有传统参数曲面、隐式曲面造型技术不具备的诸多优点,因此广泛应用于计算机辅助几何设计和计算机动画造型等领域。但细分曲面的所有细分模式都存在一个亟待解
三维建模在目前的日常生活中使用广泛,例如在游戏、电影特效、城市和景观设计、建筑、虚拟遗产、虚拟环境等领域都有巨大的应用前景。基于序列图像对物体外貌进行三维建模,是
随着互联网以及无线通信的快速发展,各类移动设备迅速流行,人们对无线通信有了更高的要求,比如更高的带宽和更低的延迟,但移动通信质量容易受到干扰,会导致无线通信延迟的增
随着互联网日益渗透到社会生活的每个角落,经济发展也产生新的方式。2017年3月9日,国务院还发布了《关于大力推进大众创业万众创新若干政策措施的意见》,并在该《意见》中,肯
三维(Three-Dimensional,3D)视频系统因能提供更加真实的立体视频感知体验和支持用户自由选择观看角度,已成为视频编码和通信领域的研究热点。为了在解码端能提供立体视觉体