论文部分内容阅读
一、引言
陆俭明先生在《由指人的名词自相组合造成的偏正结构》一文中详细分析了“爸爸的爸爸的爸爸”这一结构的正确切分方式,本文在陆先生这篇文章的启发下,在语料库的基础上全面考察了“名+名+名”这一组合。语料是北京大学计算语言学研究所的标注语料。本文所涉及的名词主要是普通名词(n)、地方(ns)、人名(nr)、机构团体(nt)和其他专名(nz)五大类,同时本文所讨论的“名+名+名”组合指的是不带任何修饰成分的三个名词的组合。
二、组合抽取和数据统计
本文用程序统计出了125类“名+名+名”组合的出现次数,具体数据如表1所示。
表1 125类“名+名+名”组合的数据(见右表)

Table 1 The data of 125 types of “n+n+n”
注:表格内的数字为该组合在语料库中的出现次数
三、统计数据的分析
(一)数据的初步分析
从统计的数据看,“n+n+n”是出现最多的一类短语组合,在整个组合中占到29%,而“n+n+n”“nr+n+n”“ns+n+n”“nt+n+n”“nz+n+n”“ns+nz+n”“nr+nr+n”“n+ns+n”“ns+ns+n”“n+n+nr”“ns+n+nr”“nt+n+nr”“n+nr+nr”“nr+nr+nr”“ns+ns+ns”这十五类组合共占了总量的96.18%。而“nz+ns+nt”“nz+ns+nz”“nt+nt+nt”“nt+nt+nz”“nt+nr+nt”“nt+nr+nz”等39个组合出现次数都是0,其他的出现次数都在600次以下。
(二)组合的合法性和组合的歧义类型
本文的合法组合是从层次分析的角度看能彼此构成句子直接组成成分和语义上能够搭配的组合。所谓非法组合是从层次分析的角度看彼此不能构成直接组成成分关系和语义上不能搭配的组合。通过统计发现,在选取的十五类高频(出现次数大于1000)的组合中,“n+n+nr”“nr+n+n”“ns+n+nr”“ns+n+nr”“nt+n+nr”“n+ns+n”等为非法组合。
对于歧义类型,本文主要从定界歧义和结构关系歧义来看组合短语结构歧义。所谓定界歧义,也就是短语结构的层次切分歧义。层次切分歧义通常会伴随着结构关系歧义。而所谓结构关系歧义,则是指两个成分发生组合能以不同的关系形成一个组合体。
本文主要对“n+n+n”“nr+n+n”“ns+n+n”“nt+n+n”“nz+n+n”“ns+nz+n”“nr+nr+n”“n+ns+n”“ns+ns+n”“n+n+nr”“ns+n+nr”“nt+n+nr”“n+nr+nr”“nr+nr+nr”“ns+ns+ns”等十五类高频组合进行详细的分析。
对于合法组合具体分析如下:
1. n+nr+nr根据从语料库中抽出的“n+nr+nr”分析,这一组合从结构关系和语义搭配上都是合法的组合。结构关系主要是同位、主谓、定中关系,例如“记者/n何/nr伟/nr”“外交部长/n钱/nr其琛/nr”“同伙/n陈/nr伟nr”。普通名词(n)大多表示职务角色这些事物,如“主任”“妻子”“嫌疑人”等。短语组合的结构关系不同造成了大部分歧义的出现,主要分布在主谓关系和同位关系这两种结构上,例如“领导人/n江/nr泽民/nr”“总统/n金/nr泳三/nr”。
2. nr+nr+n由于“nr+nr”组合成一个完整的人名,所以“nr+nr+n”基本上全部是合法的组合,同时结构关系大部分是同位结构,例如“高/nr铁/nr同志/n”;同时有一部分定中结构和少量的主谓结构,例如“雷/nr锋/nr精神/n”、“江/nr泽民/nr总书记/n”、“迟/nr浩田/nr上将/n”等。本组合的歧义仍然是结构关系歧义,主要分布在同位结构和主谓结构这两个关系上,例如“严/nr顺开/nr老师/n”、“蔡/nr方柏/nr大使/n”等。从这一组合的分析中可以看出,最好把人名合起来作为一个分词单位,这样有助于短语和句子自动分析正确率的提高。
3.n+n+n这一组合是“名+名+名”组合中出现最多的。由于是普通名词,所以结构关系也比较复杂,定中、联合等关系都大量地在这一组合中出现,例如“工商/n银行/n队/n”、“石油/n化工/n总公司/n”、“公安局/n巡警/n总队/n”、馅饼/n丸子/n汤/n“”、“区/n地/n县/n”、“省/n市/n区/n”等。歧义组合既有结构关系不同造成的,也有切分点不同造成的,前者主要分布在定中关系和联合关系上,例如“物质/n技术/n基础/n”、“传记/n人物/n创作/n”等,后者主要是在定中结构的切分点上不同造成的,例如“大学/n文学/n研究所/n”、“基层/n干部/n群众/n”等。
4.ns+n+n这三个名词连接成的组合基本上全部是合法的结构,并且基本上是定中关系,例如“中国/ns服装/n服饰/n”、“南京/ns大学/n出版社/n”等。由于定中关系的切分点不同,歧义结构大量存在,例如“中国/ns人口/n新闻奖/n”、“北京/ns图书/n订货会/n”等。
5.ns+ns+n在统计的语料中,这一组合都是合法的,结构关系主要集中在定中关系上,例如“西藏/ns那曲/ns地区/n”、“美国/ns宾夕法尼亚/ns大学/n”等。并且只要组合成立就存在歧义,主要是由于切分位置不同造成的层次划分不同产生的歧义,例如“白俄罗/ns斯戈梅里/ns化工厂/n”、“江苏省/ns涟水/ns中学/n”等。
6.ns+ns+ns由于中文表达几个地点相连时大都是有层次的,所以这一组合是合法的,并且大部分是定中结构,例如“江西省/ns乐平市/ns礼林镇/ns”、“山东省/ns德州市/ns德城区/ns”等,有少量的联合结构,如“大连/ns厦门/ns南京/ns”、“厦门/ns南京/ns上海/ns”等。同时由于切分点的不同,大部分存在歧义,例如“山东省/ns济南市/ns长清镇/ns”、“江苏/ns连云港市/ns浦南乡/ns”等。
7.ns+nz+n这一组合关系是合法的,结构关系全部是定中关系,例如“北太平庄/ns京京/nz肉食厂/n”、“山东/ns金贵/nz酒厂/n”等。同样由于切分位置的不同造成了歧义的大量存在,如“南京/ns熊猫集团/nz公司/n”、“荷兰/ns飞利浦/nz电子/n”等。
8.nz+n+n这一组合基本上全部是合法的组合,在结构关系上都是定中结构,例如“长虹/nz科技/n公司/n”、“创佳/nz电子/n有限公司/n”等,由于“nz”是专有名词,因此在层次关系上切分不一致的问题不多,所以歧义结构很少,只有少量的如下结构具有歧义性,“花旗/nz银行/n总部/n”、“伊斯兰/nz共和国/n总理/n”。
9.nt+n+n这一组合基本上都是合法的组合,在结构关系上都是定中结构,例如“国务院/nt新闻/n办公室/n”、“北京大学/nt国际/n关系/n”等,本组合在层次关系上切分不一致的问题很少,只有少量的如下结构具有歧义性,“联合国/nt禁毒署/n署长/n”。
总之,在选取的这十五类“名+名+名”结构中,合法组合的结构关系可以组成联合关系、同位关系、主谓关系、定中关系等各种类型,并且定中关系是出现最多的一种关系,而“nz+n+n”、“ns+nz+n”、“ns+ns+n”、“ns+n+n”、“nt+n+n”基本上只有定中关系一种。
在歧义类型和分布上也多有不同,在选取的这九类合法的组合中全部有歧义,只有“nz+n+n”和“nt+n+n”的歧义数量比较少。歧义类型大多是切分不一致造成的,只有“n+nr+nr”、“nr+nr+n”这两类有一部分歧义是由于结构关系不同造成的。
(三)非法组合和合法组合中的非法事例
这里所说的非法组合是指选出的高频中的这几类“n+n+nr”、“nr+n+n”、“ns+n+nr”、“ns+n+nr”、“nt+n+nr”、“n+ns+n”。对于“n+n+nr”、“nr+n+n”、“ns+n+nr”、“nt+n+nr”、、“nr+nr+nr”这几类,由于中文分词系统中姓与名是分开的,导致了这几类在语义上是不能成立的,例如“集团公司/n总经理/n张/nr”、“政道/nr教授/n报告会/n”、“许昌县/ns农民/n庞/nr”、“北京大学/nt教授/n厉/nr”、“印东/nr周庆/nr新/nr”等。而“n+ns+n”由于地名“ns”的存在造成了结构上前后的不搭配,导致了这一结构绝大部分是非法的,例如“电/n中国/ns国际象棋/n”,但也有一小部分是成立的,例如“全体/n中国/ns人/n”。
由于语料库等各方面的原因,在选取的九类高频合法组合中基本上都存在着非法用例。如“n+nr+nr”的“支队/n刘/nr业国/nr”和“战区/n阎/nr锡山/nr”,“nr+nr+n”的“张/nr跃进/nr中央/n”和“赖/nr铭隆/nr全国/n”,“n+n+n”的“系/n鱼类/n主产区/n”和“特色/n社会主义/n事业/n”,“ns+n+n ”的“北京/ns首都/n国际/n”和“中国/ns作物/n种质/n”,“ns+ns+n”的“突尼斯/ns克比里省/ns中国/n”,“ns+nz+n”的“黄南/ns藏族自治/nz州/n”,“nz+n+n”的“中城大通/nz银行/n黑色/n”和“nt+n+n”的“国务院/nt妇女/n儿童/n”。这些组合有的是由于语义上的不关联甚至是相对而造成的两者的不衔接,例如“中国/ns作物/n种质/n”,也有的由于脱离了具体的语境而造成的非法用例,例如“国务院/nt妇女/n儿童/n”。
四、结束语
本文所分析的“名+名+名”,只不过是“np+np+np”中最简单的一种形式。但对于所用语料库也有一些要解决的问题,如对于人名是否可以不拆分而作为一个分词单位来处理,这样也许对提高短语和句子的自动识别有帮助。同时对普通名词(n)进行更详细的分类,如分化出称呼、职称和职业等,这样有助于详细地考察“名+名+名”这一结构,从而也有助于短语和句法的自动分析。
参考文献:
[1]陈小荷.现代汉语自动分析——Visual C++实现[M].北京:北京语言文化大学出版社,2000.
[2]戴海胜 杨波 颜伟.现代汉语“名+名”组合的统计考察[A].第二届全国大学生计算语言学研讨会论文集[C].北京:北京语言文化大学,2004.
[3]黄伯荣 廖序东.现代汉语[M].北京:高等教育出版社,2002.
[4]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,2000.
[5]陆俭明.由指人的名词自相组合造成的偏正结构[J].中国语言学报,1985,(2).
[6]王珏.现代汉语名词研究[M].上海:华东师范大学出版社,2001.
[7]朱德熙.朱德熙文集(一)[M].北京:商务印书馆,1999.
(王东波,南京师范大学文学院)
陆俭明先生在《由指人的名词自相组合造成的偏正结构》一文中详细分析了“爸爸的爸爸的爸爸”这一结构的正确切分方式,本文在陆先生这篇文章的启发下,在语料库的基础上全面考察了“名+名+名”这一组合。语料是北京大学计算语言学研究所的标注语料。本文所涉及的名词主要是普通名词(n)、地方(ns)、人名(nr)、机构团体(nt)和其他专名(nz)五大类,同时本文所讨论的“名+名+名”组合指的是不带任何修饰成分的三个名词的组合。
二、组合抽取和数据统计
本文用程序统计出了125类“名+名+名”组合的出现次数,具体数据如表1所示。
表1 125类“名+名+名”组合的数据(见右表)

Table 1 The data of 125 types of “n+n+n”
注:表格内的数字为该组合在语料库中的出现次数
三、统计数据的分析
(一)数据的初步分析
从统计的数据看,“n+n+n”是出现最多的一类短语组合,在整个组合中占到29%,而“n+n+n”“nr+n+n”“ns+n+n”“nt+n+n”“nz+n+n”“ns+nz+n”“nr+nr+n”“n+ns+n”“ns+ns+n”“n+n+nr”“ns+n+nr”“nt+n+nr”“n+nr+nr”“nr+nr+nr”“ns+ns+ns”这十五类组合共占了总量的96.18%。而“nz+ns+nt”“nz+ns+nz”“nt+nt+nt”“nt+nt+nz”“nt+nr+nt”“nt+nr+nz”等39个组合出现次数都是0,其他的出现次数都在600次以下。
(二)组合的合法性和组合的歧义类型
本文的合法组合是从层次分析的角度看能彼此构成句子直接组成成分和语义上能够搭配的组合。所谓非法组合是从层次分析的角度看彼此不能构成直接组成成分关系和语义上不能搭配的组合。通过统计发现,在选取的十五类高频(出现次数大于1000)的组合中,“n+n+nr”“nr+n+n”“ns+n+nr”“ns+n+nr”“nt+n+nr”“n+ns+n”等为非法组合。
对于歧义类型,本文主要从定界歧义和结构关系歧义来看组合短语结构歧义。所谓定界歧义,也就是短语结构的层次切分歧义。层次切分歧义通常会伴随着结构关系歧义。而所谓结构关系歧义,则是指两个成分发生组合能以不同的关系形成一个组合体。
本文主要对“n+n+n”“nr+n+n”“ns+n+n”“nt+n+n”“nz+n+n”“ns+nz+n”“nr+nr+n”“n+ns+n”“ns+ns+n”“n+n+nr”“ns+n+nr”“nt+n+nr”“n+nr+nr”“nr+nr+nr”“ns+ns+ns”等十五类高频组合进行详细的分析。
对于合法组合具体分析如下:
1. n+nr+nr根据从语料库中抽出的“n+nr+nr”分析,这一组合从结构关系和语义搭配上都是合法的组合。结构关系主要是同位、主谓、定中关系,例如“记者/n何/nr伟/nr”“外交部长/n钱/nr其琛/nr”“同伙/n陈/nr伟nr”。普通名词(n)大多表示职务角色这些事物,如“主任”“妻子”“嫌疑人”等。短语组合的结构关系不同造成了大部分歧义的出现,主要分布在主谓关系和同位关系这两种结构上,例如“领导人/n江/nr泽民/nr”“总统/n金/nr泳三/nr”。
2. nr+nr+n由于“nr+nr”组合成一个完整的人名,所以“nr+nr+n”基本上全部是合法的组合,同时结构关系大部分是同位结构,例如“高/nr铁/nr同志/n”;同时有一部分定中结构和少量的主谓结构,例如“雷/nr锋/nr精神/n”、“江/nr泽民/nr总书记/n”、“迟/nr浩田/nr上将/n”等。本组合的歧义仍然是结构关系歧义,主要分布在同位结构和主谓结构这两个关系上,例如“严/nr顺开/nr老师/n”、“蔡/nr方柏/nr大使/n”等。从这一组合的分析中可以看出,最好把人名合起来作为一个分词单位,这样有助于短语和句子自动分析正确率的提高。
3.n+n+n这一组合是“名+名+名”组合中出现最多的。由于是普通名词,所以结构关系也比较复杂,定中、联合等关系都大量地在这一组合中出现,例如“工商/n银行/n队/n”、“石油/n化工/n总公司/n”、“公安局/n巡警/n总队/n”、馅饼/n丸子/n汤/n“”、“区/n地/n县/n”、“省/n市/n区/n”等。歧义组合既有结构关系不同造成的,也有切分点不同造成的,前者主要分布在定中关系和联合关系上,例如“物质/n技术/n基础/n”、“传记/n人物/n创作/n”等,后者主要是在定中结构的切分点上不同造成的,例如“大学/n文学/n研究所/n”、“基层/n干部/n群众/n”等。
4.ns+n+n这三个名词连接成的组合基本上全部是合法的结构,并且基本上是定中关系,例如“中国/ns服装/n服饰/n”、“南京/ns大学/n出版社/n”等。由于定中关系的切分点不同,歧义结构大量存在,例如“中国/ns人口/n新闻奖/n”、“北京/ns图书/n订货会/n”等。
5.ns+ns+n在统计的语料中,这一组合都是合法的,结构关系主要集中在定中关系上,例如“西藏/ns那曲/ns地区/n”、“美国/ns宾夕法尼亚/ns大学/n”等。并且只要组合成立就存在歧义,主要是由于切分位置不同造成的层次划分不同产生的歧义,例如“白俄罗/ns斯戈梅里/ns化工厂/n”、“江苏省/ns涟水/ns中学/n”等。
6.ns+ns+ns由于中文表达几个地点相连时大都是有层次的,所以这一组合是合法的,并且大部分是定中结构,例如“江西省/ns乐平市/ns礼林镇/ns”、“山东省/ns德州市/ns德城区/ns”等,有少量的联合结构,如“大连/ns厦门/ns南京/ns”、“厦门/ns南京/ns上海/ns”等。同时由于切分点的不同,大部分存在歧义,例如“山东省/ns济南市/ns长清镇/ns”、“江苏/ns连云港市/ns浦南乡/ns”等。
7.ns+nz+n这一组合关系是合法的,结构关系全部是定中关系,例如“北太平庄/ns京京/nz肉食厂/n”、“山东/ns金贵/nz酒厂/n”等。同样由于切分位置的不同造成了歧义的大量存在,如“南京/ns熊猫集团/nz公司/n”、“荷兰/ns飞利浦/nz电子/n”等。
8.nz+n+n这一组合基本上全部是合法的组合,在结构关系上都是定中结构,例如“长虹/nz科技/n公司/n”、“创佳/nz电子/n有限公司/n”等,由于“nz”是专有名词,因此在层次关系上切分不一致的问题不多,所以歧义结构很少,只有少量的如下结构具有歧义性,“花旗/nz银行/n总部/n”、“伊斯兰/nz共和国/n总理/n”。
9.nt+n+n这一组合基本上都是合法的组合,在结构关系上都是定中结构,例如“国务院/nt新闻/n办公室/n”、“北京大学/nt国际/n关系/n”等,本组合在层次关系上切分不一致的问题很少,只有少量的如下结构具有歧义性,“联合国/nt禁毒署/n署长/n”。
总之,在选取的这十五类“名+名+名”结构中,合法组合的结构关系可以组成联合关系、同位关系、主谓关系、定中关系等各种类型,并且定中关系是出现最多的一种关系,而“nz+n+n”、“ns+nz+n”、“ns+ns+n”、“ns+n+n”、“nt+n+n”基本上只有定中关系一种。
在歧义类型和分布上也多有不同,在选取的这九类合法的组合中全部有歧义,只有“nz+n+n”和“nt+n+n”的歧义数量比较少。歧义类型大多是切分不一致造成的,只有“n+nr+nr”、“nr+nr+n”这两类有一部分歧义是由于结构关系不同造成的。
(三)非法组合和合法组合中的非法事例
这里所说的非法组合是指选出的高频中的这几类“n+n+nr”、“nr+n+n”、“ns+n+nr”、“ns+n+nr”、“nt+n+nr”、“n+ns+n”。对于“n+n+nr”、“nr+n+n”、“ns+n+nr”、“nt+n+nr”、、“nr+nr+nr”这几类,由于中文分词系统中姓与名是分开的,导致了这几类在语义上是不能成立的,例如“集团公司/n总经理/n张/nr”、“政道/nr教授/n报告会/n”、“许昌县/ns农民/n庞/nr”、“北京大学/nt教授/n厉/nr”、“印东/nr周庆/nr新/nr”等。而“n+ns+n”由于地名“ns”的存在造成了结构上前后的不搭配,导致了这一结构绝大部分是非法的,例如“电/n中国/ns国际象棋/n”,但也有一小部分是成立的,例如“全体/n中国/ns人/n”。
由于语料库等各方面的原因,在选取的九类高频合法组合中基本上都存在着非法用例。如“n+nr+nr”的“支队/n刘/nr业国/nr”和“战区/n阎/nr锡山/nr”,“nr+nr+n”的“张/nr跃进/nr中央/n”和“赖/nr铭隆/nr全国/n”,“n+n+n”的“系/n鱼类/n主产区/n”和“特色/n社会主义/n事业/n”,“ns+n+n ”的“北京/ns首都/n国际/n”和“中国/ns作物/n种质/n”,“ns+ns+n”的“突尼斯/ns克比里省/ns中国/n”,“ns+nz+n”的“黄南/ns藏族自治/nz州/n”,“nz+n+n”的“中城大通/nz银行/n黑色/n”和“nt+n+n”的“国务院/nt妇女/n儿童/n”。这些组合有的是由于语义上的不关联甚至是相对而造成的两者的不衔接,例如“中国/ns作物/n种质/n”,也有的由于脱离了具体的语境而造成的非法用例,例如“国务院/nt妇女/n儿童/n”。
四、结束语
本文所分析的“名+名+名”,只不过是“np+np+np”中最简单的一种形式。但对于所用语料库也有一些要解决的问题,如对于人名是否可以不拆分而作为一个分词单位来处理,这样也许对提高短语和句子的自动识别有帮助。同时对普通名词(n)进行更详细的分类,如分化出称呼、职称和职业等,这样有助于详细地考察“名+名+名”这一结构,从而也有助于短语和句法的自动分析。
参考文献:
[1]陈小荷.现代汉语自动分析——Visual C++实现[M].北京:北京语言文化大学出版社,2000.
[2]戴海胜 杨波 颜伟.现代汉语“名+名”组合的统计考察[A].第二届全国大学生计算语言学研讨会论文集[C].北京:北京语言文化大学,2004.
[3]黄伯荣 廖序东.现代汉语[M].北京:高等教育出版社,2002.
[4]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,2000.
[5]陆俭明.由指人的名词自相组合造成的偏正结构[J].中国语言学报,1985,(2).
[6]王珏.现代汉语名词研究[M].上海:华东师范大学出版社,2001.
[7]朱德熙.朱德熙文集(一)[M].北京:商务印书馆,1999.
(王东波,南京师范大学文学院)