基于分布表征的语义提取和语义透明度自动评估实验

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:zz121961437
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文在联结主义的理论“模型将词汇的语义知识用分布表征值来表示”的基础上,选择了一组汉语复合词进行语义抽取和计算分析,基于语义距离提出了一个自动评估语义透明度的计算方法。实验直观有效地展现了一组多义语素间的同义、近义和同型异义关系,并揭示了语义透明度在多义语素系统中本质上是对某一具体语素义的相对距离。
  关键词:语义表示 语义提取 语义聚类 语义距离 语义透明度
  
  一、引言
  传统的语义观将语义表示为层级关系的范畴节点,其词汇语义是符号表征;而联结主义理论则将语义知识看成是分布表征,词汇语义可以表示为分布表征的多维向量,语义间的差异表现为语义距离。一方面,一个词语在复杂的语言环境中所表现出来的各种词汇句法、语用语义,更适合使用分布表征来表示和自动提取,克服了范畴语义表征由于其人工归纳无法保证全面准确真实的缺陷。另一方面,在分布表征基础下的语义表示方法,也提供了对语义计算和处理的多样手段。本文使用的语义抽取模型原本用在模拟语言习得过程的研究中用来提取语义作为自组织特征映射(SOM)神经网络的语义输入部分。我们稍微调整训练方法和研究对象,在“语义差异为语义距离”的理论前提下,直接对提取的语义进行一系列的计算分析和假设。我们选取了一组复合词,提取语义之后利用聚类算法进行网图(map)表示,使用欧式距离公式直接计算每个词汇之间的语义距离,在此基础上提出了语义透明度自动评估的假设。这些有别于范畴语义的计算和处理方法还有一个很重要的特点就是适用于大规模真实文本的处理。
  二、模型介绍
  本文采用的语义抽取算法模型,是理士满大学认知实验室(Farkas,I & Li,2001,2002)开发的自组织特征映射(SOM)神经网络模型中的语义分析模型WCD(a word co-occurrence detector)。该模型能较好地利用真实的语言材料,提取语义表征知识,在和儿童语言习得和双语模拟(Li Ping,2002、2004)的实验中均有较好的表现。其基本原理很简单:计算被考察的词语O与一组参考词语[i1,i2,…,iN ]的出现在其左Li=[li1,li2,…,liN ]和右Ri=[r1i,r2i,…,rNi ]的共现概率,将其值映射到多维数组O=[Pli1,Pli2,…,PliN,Pr1i,Pr2i,…,PrNi ]上,这个数组最终就表示该词语的语义值。
  模型主要有三个参数:一是模型所开的窗口数,如果为3,指我们所考察的词语在训练文本中的左边L和右边R各看三个词语,如果它们同时又是参考词语,则计算它们与考察词语的共现概率(其值由其位置远近加权调整)。参考词语我们以下简称为“背景词”,背景词的数量和内容是模型的第二个参数。第三个参数就是我们需要训练的词语,以下简称为被试词。背景词和被试词由我们在具体试验中给出,第一个参数我们默认使用3个窗口。
  三、试验准备
  训练语料:现代汉语语料(北京语言大学开发,已分好词)。
  被试词的确定以及预处理:首先对含有“花”的词语进行检索,语料中含有“花”的词语有上百个。在这些词语中确定被试词:花架子、花、花费、荷花、樱花、棉花、花生、花儿、花草、花园、雪花、桃花。接下来对语料中823处单独作词语使用的“花”进行标注,代表“花儿”意思的标上“花1”(共有330个),代表“花费”意思的标上“花2”(共有493个)。
  背景词的确定:从语料中统计词频得出的前500个高频词。
  四、试验结果的网图表示
  实验结果是每个词语的语义值表示为一千维的数组(向量),每个值在0~1.0范围之间。下面直接对数据进行计算分析。我们首先采取了多维尺度分析(Multidimensional Scaling,MDS),将1000维的数据降到2维的网图上,以观察被试词汇间的聚类关系。多维尺度分析的基本原理是将评价者对各种事物的相似程度,通过适当的降维方法,将这种相似或不相似距离程度在低维度空间中点与点之间的距离表示出来。其算法描述见参考文献[1]。
  图1:现代汉语语料语义聚类网图
  
  图2:图1虚框部分放大
  
  从聚类网图我们可以看出:
  (一)“花 1”和“桃花、樱花、荷花”等聚在一起,而且内部还有一些细微的差异,“棉花”和“雪花”的距离比较远,“花儿”和“花草”的距离比较近。
  (二)“花架子”和“花1”“花2”的距离都很远。
  (三)“花2”和“花费”聚在一起,它们与其他的词语距离都很远。总的来说,语义接近的词语相距很近,语义差别大的词语相距很远,说明模型能够辨别同义、同形关系。最为明显的是“花1”和“花2”距离很远,说明模型能够将这两个意义绝然不同的“同形词”区别开。
  五、实验数据分析:欧氏距离(Euclidean distance)评估
  从网图可以很直观地看出词语间的相互关系,在把语义看成距离的基础上,我们在语义表征值上进一步量化分析:采用两个词语间欧氏距离来检验实验结果。
  两点间欧氏公式:d=sqrt(∑(xi1-xi2)^ )
  我们在这里使用的欧氏距离,是一种广泛采用的计算多维距离的办法。两词语间语义距离的计算也是我们下一步评估语义透明度的基础。
  表1:现代汉语语义抽取后求解词语间欧氏距离值
   花草 桃花 樱花 荷花 雪花 花生 花架子 花费 花2
  花1 0.7053 0.5630 1.1476 0.9748 1.0591 0.9287 1.3528 1.2415 1.3376
  花2 1.4795 1.2176 1.5756 1.5255 1.5124 1.4547 1.6594 0.2025 0
  
  从表格中的数据可以看出,语素和词之间、词与词之间意义越相近,两点间欧氏距离(语义距离)就越小;反之越大。
  六、透明度自动评估假设
  语义透明度(Semantic Transparency):所谓语义透明度是指合成词的整词语义可从其成分词素的语义推知的程度,其操作性定义为整词与其成分词素的语义相关程度。Zwitserlood(1994)曾对语义透明度这个问题做过解释:“Semantic of compounds is defined by the semantic relationship between a compound and its component morphemes”。一般来说,语义透明度均由人工评测确定,如文献[2]和[3]使用多人评测,然后取其平均值。从研究现状来看,我们暂未发现透明度的自动评估实验、研究报告和文献,因此,无现成的理论支持。基于语义的差异可以量化为语义距离,我们将语义透明度的定义中的“整词与其成分词素的语义相关程度”量化为“整词与其成分词素的语义相对距离”,从而提出语义透明度假设公式。
  假设:首先对词语相对于某语素的欧氏距离取倒数(基于欧氏距离越小,语义相关越高、透明度越高的假设),然后取平方根(对数值相对差距的一种处理)。
  即我们的语义透明度假设公式:透明度= sqrt(1/欧氏距离)
  表2:现代汉语语义抽取后,求解词语间语义透明度值
   花草 桃花 樱花 荷花 雪花 花生 花架子 花费
  花1 1.19 1.33 0.93 1.01 0.97 1.03 0.85 0.89
  花2 0.82 0.90 0.79 0.79 0.79 0.82 0.77 2.22
  
  (注:“花草”相对于“花1”的透明度为1.19,“花草”相对于“花2”的透明度为0.82。)
  我们可以看出:
  (一)“桃花”“樱花”“花草”“梅花”“雪花”相对“花1”的透明度都高于它们相对“花2”的透明度。
  (二)“花费”相对于“花2”的透明度高于“花1”的透明度。
  (三)不管是相对“花1”还是“花2”,语义透明词语和不透明词均可以以0.9左右为界(不透明词标有下划线)。
  自动评估结果与我们的直觉以及人工评价有一致性(我们也参照文献[3]做了一组人工评估,见附录表1,其结果与自动评估数据做了相关分析,得出相关系数值为0.674)。说明了我们的假设有一定的可行性。当然,我们仅对一组复合词进行了试验,要真正利用这个方法进行批量的语义透明度评价,还要进一步检验和改进。另外,我们得到的语义透明度的数据之间的差异不是很大,与之相对,人工评估数据一般取0-10,设5为透明与不透明的分界值。能否改进公式的计算方法或改进模型的训练参数,把透明度的值调整到更合理的区间范围内,值得进一步探索。
  同时,我们可以看出,实验中语义透明度评价是以某一个语素或者词作为参考,它是一个相对值,如果不考虑这一点,透明度将无法定义。而如果语素是有多义的,则某个词语的透明度值不是唯一的,例如“花费”相对“花1”的透明度低,相对于“花2”的透明度高。以某个语素或词的某具体义项作为参照,是语义透明度评价的前提,我们在人工评价语义透明度的时候是否考虑到这些因素?仅仅以熟悉的语素某个义项作为参照是有缺陷的。
  如果把词语间的语义距离看成两点距离或者绝对距离,语义透明度则是以某些点为参照的相对距离,词语透明与不透明的分界点恰好是这种相对距离上的某个阈值。
  七、结语
  实验在现有理论模型基础上对一组词语做了一系列语义分析和计算。提取语义后,语义聚类网图和语义距离很好地展示了词语间的同义多义和异义关系,相对语义距离展示了语义透明度自动评估的可行性。这些语言知识,是通过语料无指导学习得到。从本质上讲,这些语义知识,融合了词汇语法,还有语用语义。而且随着语料的变大和合理的实验设计,这种值越趋向合理。语义透明度一向是心理学和语言习得界研究的一个很重要的概念,词语的语义透明度让语言学习者见词知义、学习和记忆词汇有据可依。语义透明度自动评测的探讨有望带来一定的理论价值和实际意义。
  
  (本文受教育部人文社会科学重点研究基地重大项目“留学生汉语词汇习得的计算机模拟研究[NO.08JJD740063]”资助。)
  参考文献:
  [1]甘资先,周方俊,肖奕.多维尺度分析中的算法研究[J].清华大
  学学报(自然科学版),1991,(6).
  [2]刘伟.语义透明度对留学生双音节合成词词汇通达的影响[D].北
  京:北京语言大学硕士论文,2004.
  [3]王春茂,彭聃龄.合成词加工中的词频、词素频率及语义透明度
  [J].心理学报,1999,(3).
  [4]邢红兵.基于联结主义理论的第二语言词汇习得研究框架[J].语
  言教学与研究,2009,(5).
  [5]Cary Libben.Semantic Transparency in the Processing of
  Compounds:Consequences for Representation,Processing,and Impairment[J].Brain and Language,1998,(61).
  [6]Farkas,I and Li.A self-organizing neural network model
  of the acquisition of word meaning[C].E.M.Altamann,A.Cleeremans,C.D.Shunn,and W.D.Gray.Proceedings of the Fouth International Conference on Cognitive Modeling.Mahwah,NJ:Lawrence Erlbaum.2001.
  [7]Farkas,I and Li.Modeling the development of the lexicon
  with a growing self-organizing map[C].H.J.Caulifield et al.Proceedings of the Sixth Joint Conference on Information Science.Durham,NC:JCIS/Association for Intelligent Machinery,Inc.2002.
  [8]Li Ping,Igor Farkas,Brian MacWhinney.Early lexical development
  in a self-organizing neural network[J].Neural Networks,2004,(17).
  [9]Li,Ping,&Farkas,I.A self-organizing connectionist model of
  bilingual processing[C].R.Heredia,& J.Altarriba Bilingual sentence processing,North-Holland:Elsevier Science,2002.
  [10]Zwitserlood,P.Processing and representation of Dutch
  compounds:Effects of semantic transparency[J].Language and Cognitive Processes.1994,9,(3).
  
  附录:
  表1:人工评估语义透明度值
   花草 桃花 樱花 荷花 雪花 花生 花架子 花费
  花1 8.51 8.12 8.21 8.01 6.22 5.51 2.59 2.01
  花2 0 0 0 0 0 0 0 9.12
  
  (陈永朝 北京 中国传媒大学文学院 100024;邢红兵 北京语言大学汉语水平考试中心 100083)
其他文献
摘 要:回族汉语中有许多用语是回族特有的,这些特殊用语是回族生活用语的主要部分,体现着回族独特的宗教文化以及生活习俗,它们是不能简单地和汉语通用语对译的。随着文化的相互渗透,这些生活用语的数量正在逐渐减少,或者说它们的使用范围正在逐渐缩小。  关键词:回族汉语 生活用语 对译 渗透    语言是一个民族特征的真实写照,不同的文化底蕴,造就了不同的民族性格,也赋予民族语言某种特有的文化内涵。回族使用
利用对称Loewner矩阵与有理函数插值之间的内在联系,给出2个非对角对称Loewner矩阵的乘积仍为复对称Loewner矩阵的充要条件,以及条件满足时乘积的明确表达式.
修辞造词法是汉语新词语造词法的一种,是指修辞方法介入造词过程,组织语素从无到有地造出新词语的一种方法。修辞方法不只是指修辞格,而是一种广义的修辞手法。本文从汉字修
摘 要:张家口方言是晋语的一个分支,属于晋语张呼片。本文选取张家口方言作为语料,采用优选论对其两字组的连续变调现象进行分析,归纳出该方言的连续变调制约条件的层级关系,并就其连续变调现象做出统一解释。  关键词:张家口方言 优选论 两字组 连续变调    一、引言  张家口位于河北省西北部,与京、晋、蒙毗邻。张家口方言属于晋语的一个分支。具体来说,属于晋语张呼片。该方言秉承了晋语的一大特色,即保留了