论文部分内容阅读
问答系统是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。相对于传统关键词方式的搜索引擎来说,自动问答系统具有显著的优势。在受限域,基于FAQ(常问问题)的问答系统把用户经常提问的问题和相关的答案组织在一起,在问题答案的定位上,更准确,快捷和高效,在日常生活的各个领域,有着重要的应用前景,是当前研究的热点。本文主要利用自然语言处理技术,对受限域的中文问句分类,问句的组块分析,问句相似度计算等问答系统关键技术进行探讨与研究,并在此基础上实现了云南旅游领域FAQ问答原型系统。具体来说,本文主要取得了以下几个较有特色的成果:(1)针对传统的概率统计方法进行问句分类,分类器的训练只依赖于问句中特征词的出现频率,没有考虑到问句中词与词之间的语义关系的问题,本文提出了一种语义相似度与隐Markov序列分析模型相结合的问句分类方法。该方法首先提取所有问句类别的特征词集作为不同隐Markov模型分类器的观察序列,其次以不同类别问句特征词集的形成演化过程作为状态转换序列,最后,通过词语语义相似度计算方法计算出特征词在不同类别状态下的观测值概率分布,分别构建不同类型的问句隐Markov分类模型。对旅游领域问句进行了分类实验,结果表明提出的方法比现有方法在准确率上有一定的提高。(2)现有的组块分析方法中,主要是通过词语字面信息和统计特征来进行组块,没有考虑到不同类型问句的句法结构特征。针对以上问题,本文提出了一种基于短语句法树的中文问句组块分析方法。该方法首先在已经获取问句类别的基础上,结合问句的提问方式和词法特征,分析问句的句型,归纳总结出不同问句的结构形态。然后利用短语句法分析器生成问句的短语句法树,最后结合领域问句的特性,自定义组块规则,对领域问句进行组块的识别和标注。实验结果表明,该方法具有较好的效果。(3)针对现有的汉语句子相似度计算方法,没有充分利用句子词汇语义信息和句子结构信息的问题,本文提出了一种基于改进编辑距离的领域问句相似度计算方法。该方法以组块取代字符作为基本的编辑单元,根据领域问句的特点,对不同的词赋予不同的权重,并通过知网计算块内词语相似度来衡量块间的替换代价,对不同类型的组块赋予不同的插入、删除代价。实验结果表明,该方法具有较好的效果。(4)利用上述研究成果,并以云南旅游领域为例,对领域问句进行分类,组块分析和标注,设计并实现了云南旅游FAQ问答原型系统。