从大规模Web语料中获取常识语料

来源 :中国科学院计算技术研究所 | 被引量 : 9次 | 上传用户:ytw1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
常识知识获取一直是人工智能研究领域的一个核心难题。过去的常识获取主要以人工自省的方式由知识工程师手工输入。Web语料以其大规模性、易获得性和整体的领域无关性而成为常识获取的另一个可能的知识源。从Web语料获取常识的一个重要步骤是对Web语料中的句子进行挑选,从中导出适合于常识获取的句子,这些句子组成的语料称为常识语料。通过一个手工从Web语料获取常识的实验,我们研究了从是否适合作为常识获取的知识源的角度对句子进行区分的可行性。同时发现了两个可能用来刻画句子的常识获取合适程度的特征。我们通过一组规则从直接由Web网页抽取的句子中得到适合进行句子常识获取合适程度分析的品优句子。为了利用两个手工实验中发现的特征对品优句子进行分析,我们提出了带权词汇网络模型及其训练算法和利用Web语料对封闭体词表中的体词进行认知显著性计算并排序的方法。并利用这两个从Web语料获得的资源对句子常识获取合适程度进行了分析。(1)进行了一个有三个人工被试参加的从Web语料手工获取常识知识的实验,并且从一致性检验、相合性检验、获取结果相似性检验三个角度对手工实验结果进行了分析。同时也讨论了两个用来刻画句子常识获取合适程度的特征,即语义相关词的共现率和体词的认知显著性。(2)给出了筛选适合作句子常识获取合适程度分析的品优句子的筛选规则。从Web网页抽取出的独立句子并不适合直接用作句子常识获取合适程度的分析。主要表现在这些句子容易发生分词和词性标注错误,含有成语、非语素字等难以分析的字词,含有切碎的命名实体、古文等等。为了使对句子进行常识获取合适程度分析避免这些因素的干扰,本文给出了对句子进行词级别预处理的方法,完成了这些处理方法所依赖的词表资源的建立,并总结了品优句子的筛选规则。(3)提出了带权词汇网络及从Web语料获取带权词汇网络的算法。从对句子进行常识获取合适程度分析的角度,给定了带权词汇网络中的允许词,并建立了相应的词表资源。为了对带权词汇网络中的词与词之间的前驱后继关系进行约束,我们给出了带权词汇网络中允许词的各种词性之间的二元搭配关系,并给出了训练时的具体处理策略。我们利用Jaccard系数对带权词汇网络进行了清洗。(4)提出了从Web语料计算体词的认知显著性分值的方法。我们讨论了句子中出现的体词对于从该句子中获取常识有很大的影响。借鉴认知科学中关于基本层次范畴的认知显著地位及其成因的研究,我们提出了从Web语料构建体词关系网络并利用该网络计算体词的认知显著性分值的算法。(5)利用带权词汇网络和体词认知显著性分值对句子进行常识获取合适程度分析的方法。我们给出了从带权词汇网络建立句子词汇网络的算法。利用根据句子词汇网络和体词认知显著性提取的特征对句子的常识获取难度进行了分析。我们提出了句子的极小语义成分的概念,并给出了基于词性序列的极小语义成分类型系统,在此基础上设计了从句子中抽取极小语义成分的算法。我们给出了利用带权词汇网络中的信息估计语义成分的概率的方法。我们提出了语义成分的内向扩展和外向扩展,并给出了利用极小语义成分、内向扩展、外向扩展和语义成分频繁性阈值对句子进行常识丰富度分析的方法。
其他文献
磁共振成像(MRI)具有组织、空间高分辨率和无放射损伤等优点,已经广泛应用于临床。然而,由于磁共振数据采集时间比较长,病人常常会发生自主或非自主的运动,导致图像中出现伪
论文针对网络学习个性化服务的需求,并通过对Web数据挖掘技术在实现个性化学习的研究,构建了个性化网络学习的模型以及学习者个性化信息模型,进而提出了网络学习个性化学习资源
运动车辆的有效检测和准确跟踪是现代智能交通系统研究的核心部分。基于视觉的车辆识别由于其良好的适应性和性价比,受到了广泛的关注,是近年来图像处理和人工智能等应用领域
近年来,随着计算机网络技术和应用的不断发展,Web服务技术也得到了迅速发展。Web服务因其设计简单、系统开放、结构灵活以及与平台无关等优点而被广泛应用。随着Web服务技术
无线传感器网络是一种全新的信息获取和处理技术,它综合了传感器技术、嵌入式计算技术、无线网络通信技术、分布式信息处理技术以及微机电技术,能够协作地实时监测、感知和采
电视节目一直是人们生活中不可或缺的一部分,随着人们生活质量的提高和生活方式的改变,以及电子技术的迅猛发展,传统的电视机已经不能满足人们当前的要求。为了满足能够及时
Ad hoc网络中节点能量有限,如果某些节点由于能量耗尽而停止工作,很可能导致整个网络分裂。另外,Ad hoc网络拓扑结构动态变化,无线带宽有限,单径路由不但不能充分利用有限的