论文部分内容阅读
自然语言理解现在已成为人工智能研究中最活跃的领域之一。在自然语言处理的研究中,最有希望的应用领域之一是自然语言接口。计算机对自然语言中的查询语言理解的正确程度是自然语言接口质量好坏的关键。本文基于建立通用模型的概念,设计了一个通用的数据库自然语言接口系统模型,深入地研究了实现该模型的原理,同时建立了一个具体的实现系统,并希望该系统很容易地移植到其他应用领域。本文研究的内容是设计和实现一个实用的数据库自然语言接口系统的全过程的理论和策略,主要有如下几个方面的研究成果: 1、构造了一个程序设计与知识库相分离的通用的数据库自然语言接口系统模型。该模型是把汉语自然查询语言的计算机理解与知识库分开各自独立进行设计。理解部分分为词法分析、句法分析与语义分析、自然语言转中间语言、中间语言转计算机语言、应答生成等几个相对独立的模块。这种模型设计使系统抛开具体应用领域而独立设计,便于系统的移植和扩充。 2、提出了把知识库从一般到特殊划分为自然语言理解通用知识库、汉语查询句理解知识库和应用领域专用知识库三个层面,并给出了每一个层面里面应具备哪些知识库和这些知识库的结构。 3、设计并编程实现了一个通用的汉语自然语言词语切分和词性标注软件系统,该子系统混合使用统计信息和语法规则。重点研究了切分歧义的发现和消除、人名的识别等几个部分,提出了首先用基于词典的最大匹配法匹配出最长词和次长词,然后检测是否存在切分歧义,其次判断出切分歧义类型,最后根据切分歧义类型的不同分别进行切分歧义的消除等一套有效方法。本子系统可以加载用户分词词典,并且用户词典的级别高于通用词典,不作任何修改可以用于各个专业领域的句子词语切分。 4、构造了一套即适合查询语言语义表示又利于转换计算机执行语句的中间语言,并给出了自然语言转中间语言的具体转换算法。该中间语言由查询成分链表querylink、复合概念等价变换链表conceptlink、实体队列entityqueue、查询目标链表queryaimlink、查询条件树queryconditiontree等构成。第n页西南交通大学博士研究生学位论文 5、对汉语查询句的外部特征和内部语义进行了详细地研究,给出了汉语查询句语义模板的分类,并研究出在计算机上能实现的汉语查询句从形式到语义的分类算法。同时识别和理解的查询语言覆盖面从过去人们只研究祈使句和特殊疑问句扩展到是非问句、选择问句和正反问句等句型。在句法分析中研究了查询句的指代消解和省略补充规律并设计了软件实现算法。 6、通过对汉语查询句查询目标的研究,将查询目标概念分解为直接查询目标、逻辑推理目标和比较判断目标三个阶段,研究了这三个阶段的关系,并构造了一套它们递进转换的算法。通过对汉语查询句各种各样查询条件的研究得出查询条件表达式可以形式化表示为二叉树的结论,并构造了查询条件字符块转换为二叉树的一套算法,进而转换为SQL语句的wHERE子句。 7、建立并研究了复合概念、逻辑概念与标准概念的内在联系,构造了复合概念分解算法和合成算法、逻辑概念的推理算法。 本文研究工作正在进行软件实现。