论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是根据各种识别和搜索技术识别输入的文本对象中的人名实体,机构名实体,地名实体。命名实体识别在自然语言处理,实体链接,信息检索和医学领域信息的处理等范围被广泛利用。由于人名成为极其关键的识别对象,因此人名识别是命名实体识别中最具有挑战性的一种关键的任务。与其他语言的命名实体识别相比,哈萨克语人名识别还处于初步的研究状态。本论文完成的研究从中如下:本文研究并实验了基于统计模型的哈萨克语人名识别。由于哈萨克语属于阿勒泰语系中的突厥语族,因此文字构成有着黏着性特点。通过大量的阅读跟哈萨克语语法和单词构成特点的资料获得了对哈萨克语命名实体的知识,本文从哈萨克语黏着性特征入手,具有人名识别特征的词干,音节,字符串,后缀等特征来对哈萨克语单词进行切分和分析,用最小的语言特征单元获得了更有效的识别信息,然后拆分的词干,人名词典,字符串,长度等特征添加到条件随机场中。通过对比实验确定了对这些特征适合的模型窗口大小,建立了人名识别模型并达到了较好的识别效果,充分弥补了哈萨克人名识别上的不足。该方法人名识别的准确率,召回率和F值分别达到了92.31%,91.56%和91.93%。由于维吾尔语人名结构跟哈萨克语人名有相同之处,因此维吾尔语单词进行了以最小的语言特征单元为标注的拆分,利用同样的特征模板对维吾尔语人名进行了识别研究,实验结果显示,该方法对维吾尔语人名识别可行的并人名识别的准确率,召回率和F值分别达到了91.92%,90.42%和91.16%。通过对哈萨克语人名进行识别过程中,意识到词干提取的必要性。因此本文分析和研究哈萨克语词干词缀的结构规则,本文采用统计词干提取规则中的N-gram语言模型来对哈萨克语词干进行了提取,实验结果显示哈萨克语词干提取的准确率为78.34%。