论文部分内容阅读
常识知识获取一直是人工智能研究领域的一个核心难题。过去的常识获取主要以人工自省的方式由知识工程师手工输入。Web语料以其大规模性、易获得性和整体的领域无关性而成为常识获取的另一个可能的知识源。从Web语料获取常识的一个重要步骤是对Web语料中的句子进行挑选,从中导出适合于常识获取的句子,这些句子组成的语料称为常识语料。通过一个手工从Web语料获取常识的实验,我们研究了从是否适合作为常识获取的知识源的角度对句子进行区分的可行性。同时发现了两个可能用来刻画句子的常识获取合适程度的特征。我们通过一组规则从直接由Web网页抽取的句子中得到适合进行句子常识获取合适程度分析的品优句子。为了利用两个手工实验中发现的特征对品优句子进行分析,我们提出了带权词汇网络模型及其训练算法和利用Web语料对封闭体词表中的体词进行认知显著性计算并排序的方法。并利用这两个从Web语料获得的资源对句子常识获取合适程度进行了分析。(1)进行了一个有三个人工被试参加的从Web语料手工获取常识知识的实验,并且从一致性检验、相合性检验、获取结果相似性检验三个角度对手工实验结果进行了分析。同时也讨论了两个用来刻画句子常识获取合适程度的特征,即语义相关词的共现率和体词的认知显著性。(2)给出了筛选适合作句子常识获取合适程度分析的品优句子的筛选规则。从Web网页抽取出的独立句子并不适合直接用作句子常识获取合适程度的分析。主要表现在这些句子容易发生分词和词性标注错误,含有成语、非语素字等难以分析的字词,含有切碎的命名实体、古文等等。为了使对句子进行常识获取合适程度分析避免这些因素的干扰,本文给出了对句子进行词级别预处理的方法,完成了这些处理方法所依赖的词表资源的建立,并总结了品优句子的筛选规则。(3)提出了带权词汇网络及从Web语料获取带权词汇网络的算法。从对句子进行常识获取合适程度分析的角度,给定了带权词汇网络中的允许词,并建立了相应的词表资源。为了对带权词汇网络中的词与词之间的前驱后继关系进行约束,我们给出了带权词汇网络中允许词的各种词性之间的二元搭配关系,并给出了训练时的具体处理策略。我们利用Jaccard系数对带权词汇网络进行了清洗。(4)提出了从Web语料计算体词的认知显著性分值的方法。我们讨论了句子中出现的体词对于从该句子中获取常识有很大的影响。借鉴认知科学中关于基本层次范畴的认知显著地位及其成因的研究,我们提出了从Web语料构建体词关系网络并利用该网络计算体词的认知显著性分值的算法。(5)利用带权词汇网络和体词认知显著性分值对句子进行常识获取合适程度分析的方法。我们给出了从带权词汇网络建立句子词汇网络的算法。利用根据句子词汇网络和体词认知显著性提取的特征对句子的常识获取难度进行了分析。我们提出了句子的极小语义成分的概念,并给出了基于词性序列的极小语义成分类型系统,在此基础上设计了从句子中抽取极小语义成分的算法。我们给出了利用带权词汇网络中的信息估计语义成分的概率的方法。我们提出了语义成分的内向扩展和外向扩展,并给出了利用极小语义成分、内向扩展、外向扩展和语义成分频繁性阈值对句子进行常识丰富度分析的方法。