论文部分内容阅读
“歧义”指语言文字的意义不明确。“语义排歧”是指计算机依据该词汇的语境特征,对其含义进行自动界定的方法。本文关注的是“细粒度语义排歧”。它是指计算机通过对细分语义所形成的复杂语境特征进行处理,自动界定语义的方法。本文提及的“语境特征”包括语义特征和句法特征。本文采用形式概念分析的方法和理论来研究二级情态动词might的细粒度语义排歧及其语境特征互动关系。本研究对might语义的划分结合了英文字典和Coates (1983)的著作TheSemantics of the Modal Auxiliaries。在360万字语料的基础上,本着细粒度的原则,本研究将might的语义划分为13类,并提取出56个语义特征和11个句法特征。首先,根据训练组100个样本,建立形式背景,构建might的语义排歧模型。训练组自检正确率为92%。用两组检验组检验该排歧模型得到其正确率为71.5%。其次,为减轻数据稀疏对研究的影响,把训练组与检验组全部300个对象放在一起构建一个大形式背景,经五倍交叉验证法检验后得到正确率为76%±0.1472%。前后两个排歧模型正确率均达到70%以上,证明对于细粒度的语义排歧,形式概念分析这种方法是有效的。用基于第二个排歧模型所提取的规则复检得到排歧正确率95.33%,证明大形式背景下提取的规则更全面,能够对might有效细粒度排歧。有鉴于第二个排歧模型正确率较高,might语境特征间的互动关系研究就建立在第二个排歧模型的基础上。研究发现,1)结合属性正序图右侧的属性分布层次和might的语义分类,might意义的外延是分布于上层的语义特征,内涵则由偏下层的句法特征与语义特征共同构成。2)might的语义特征与句法特征存在两种互动模式——分离与共处;分析基于第二个排歧模型所提取的规则可以得出:二者总体倾向分离,但在不同义类中的情况又不尽相同。二级情态动词might的细粒度语义排歧模型的构建及其语境特征互动关系的研究作为一次探索,不仅丰富了情态动词领域的相关研究,而且可以为其他复杂语义词的研究提供参考。