汉语基本名词短语识别与语法信息获取的互动研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:jjJJ012689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语基本名词短语自动识别作为中文信息处理的基本任务之一,在浅层句法分析、信息抽取和检索、机器翻译等自然语言处理领域都有十分重要的理论价值和广阔应用前景。在语言学本体研究中,汉语基本名词短语作为包含着丰富的语法信息的载体,它区别于一般的汉语名词短语,其构成基本名词短语的实词搭配形式,如:“名词+名词”、“形容词+名词”、“动词+名词”、“名词+动词”、“数词+量词+名词”等搭配组合都是语言学家们研究与关注的重点。以往的汉语基本名词短语自动识别研究只是在现有的人工标注好的语料上进行单一统计模型的自动识别实验,并没有很好地利用统计模型进行自动识别同时再融入语言学的相关信息来进一步提高识别效果。   本文的工作在约100万词次973清华中文树库的基础上,对其中所包含的基本名词短语进行了详细的统计和分析,具体考察了基本名词短语的词性序列分布信息、长度分布信息和音节组合模式分布信息,同时在参考黄昌宁先生在自动分词领域提出的词位能产度计算公式的基础上,对组成基本名词短语的词语的词位信息进行计算和分析,这些相关的统计考察工作为接下来利用统计模型识别基本名词短语提供必要的数据支持和统计决策。   在基本名词短语识别中,我们采用一种基于统计词位信息的多标记多特征的基本名词短识别方法,在确定词位标记时,我们不是简单的采用当前国际上通用的BIO语块标注体系,而是通过参考基本名词短语的长度语法信息和词位语法信息来确定具体的标记数目,并且结合一些有效的特征信息进一步提高识别结果。在识别结果评价方面,我们进一步规范了对于语块识别的评价标准,提出了采用未登录短语召回率(Unkonwn Phrase Recall)做为评价识别基本名词短语统计模型的重要标准,并且对不同的统计模型进行了相关的对比识别实验。   在互动识别实验中,我们采用基于词位信息校正的多分类器识别方法,主要思想是先计算出训练语料中组成基本名词短语的词语的词位能产度统计量,再利用这些统计量对不同统计模型分类器的不同分类结果进行校正。从实验结果上看,本文所使用的基于词位信息校正的多分类器的基本名词识别方法优于单一采用统计模型的识别方法。
其他文献
根据现有史料,《水浒传》这部巨著的研究当滥觞于明朝嘉靖年间李开先的《一笑散》。从此以后,《水浒传》在明清文人笔记和文人的评点中拉开了其研究史的帷幕。戊戌变法前后,以梁
学位
抗战时期沦陷区的话剧创作较国统区和解放区而言相对薄弱,但并非一片荒芜。本文立足于史料挖掘和文本细读,在比较中考察了三大沦陷区话剧创作的客观状态和戏剧史价值。在日伪统
2014年5月4日,长江三峡集团组织召开会议,对2013年三峡水库生态调度试验效果监测项目总结验收,长江委水文三峡局(以下简称“三峡局”)承担的生态调度期间水文要素监测分析工
清末的乌托邦小说是清末小说中较少引人关注的类型。在这些小说中,文人们基于对现实的不满,企图通过想象在文本中构建自身对于国家和民族未来的美好蓝图。本文从政治视野、性别
后97 香港青年导演的整个成长经历乃至后来的电影创作同“1997”年这个时间坐标的联系是最为紧密的。他们出生于上个世纪70年代,经历了香港经济鼎盛后的衰退;他们在香港回归后
词语教学是小学低段语文教学的重要环节,根据低年级学生的年龄特点,适宜采用多种学生喜闻乐见的方式,才能把学生学习词语的兴趣充分激发起来,才能促使孩子们的思维更加主动和
从2014年开始,我国传媒界积极开展媒体融合和转型升级工作,经过两年多的实践探索,媒体融合已经从形式上的“合”转入到全方位“融”的时代。传统媒体搭乘“互联网+”的快车,
在自然语言处理中,汉语零形回指是现代汉语指代消解工作中的一个难点。   指代消解能尽可能地消除人们为了简化语言而造成对指代词所指的歧义理解,为计算机信息处理提供正确
丰子恺是中国现代一位博采众长的艺术家。“子恺漫画”闻名中外,他的散文也成就不凡。对丰子恺散文的研究集中在其散文的创作手法、佛教渊源和童心思想等方面。但是因为丰子恺