基于短语句法组块的中文FAQ问答系统研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:qq616009003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。相对于传统关键词方式的搜索引擎来说,自动问答系统具有显著的优势。在受限域,基于FAQ(常问问题)的问答系统把用户经常提问的问题和相关的答案组织在一起,在问题答案的定位上,更准确,快捷和高效,在日常生活的各个领域,有着重要的应用前景,是当前研究的热点。本文主要利用自然语言处理技术,对受限域的中文问句分类,问句的组块分析,问句相似度计算等问答系统关键技术进行探讨与研究,并在此基础上实现了云南旅游领域FAQ问答原型系统。具体来说,本文主要取得了以下几个较有特色的成果:(1)针对传统的概率统计方法进行问句分类,分类器的训练只依赖于问句中特征词的出现频率,没有考虑到问句中词与词之间的语义关系的问题,本文提出了一种语义相似度与隐Markov序列分析模型相结合的问句分类方法。该方法首先提取所有问句类别的特征词集作为不同隐Markov模型分类器的观察序列,其次以不同类别问句特征词集的形成演化过程作为状态转换序列,最后,通过词语语义相似度计算方法计算出特征词在不同类别状态下的观测值概率分布,分别构建不同类型的问句隐Markov分类模型。对旅游领域问句进行了分类实验,结果表明提出的方法比现有方法在准确率上有一定的提高。(2)现有的组块分析方法中,主要是通过词语字面信息和统计特征来进行组块,没有考虑到不同类型问句的句法结构特征。针对以上问题,本文提出了一种基于短语句法树的中文问句组块分析方法。该方法首先在已经获取问句类别的基础上,结合问句的提问方式和词法特征,分析问句的句型,归纳总结出不同问句的结构形态。然后利用短语句法分析器生成问句的短语句法树,最后结合领域问句的特性,自定义组块规则,对领域问句进行组块的识别和标注。实验结果表明,该方法具有较好的效果。(3)针对现有的汉语句子相似度计算方法,没有充分利用句子词汇语义信息和句子结构信息的问题,本文提出了一种基于改进编辑距离的领域问句相似度计算方法。该方法以组块取代字符作为基本的编辑单元,根据领域问句的特点,对不同的词赋予不同的权重,并通过知网计算块内词语相似度来衡量块间的替换代价,对不同类型的组块赋予不同的插入、删除代价。实验结果表明,该方法具有较好的效果。(4)利用上述研究成果,并以云南旅游领域为例,对领域问句进行分类,组块分析和标注,设计并实现了云南旅游FAQ问答原型系统。
其他文献
文章通过对跨文化英语教学活动中的现状进行分析,结合跨文化教育对英语教师能力的要求,提出跨文化英语教学中提高教师能力的合理化建议,为英语教师的跨文化教学活动提供参考。
随着电子商务的发展,传统的银行融资方式也逐步融入到了电子商务平台中,尤其是大宗商品交易平台的建立,更为银企之间的供应链融资转移到电子商务平台创造了机遇。本文的目的是在
信息技术作为一种新生的现代教学方式和教育手段,已广泛应用于教育教学各个领域。作为学校教育重要组成部分的体育教育工作,无疑应当与时俱进,适应新时代体育教育发展的要求。体
向课堂要效率是我们教师一直关注并执着追求的Et标,用尽量少的时间与精力,让学生获得最大限度的学习效益的课堂教学,是减轻学生课业负担、提高自身素质的根本所在。下面,我结合自
随着课程改革的不断深入,人们对如何改变旧的教学模式,改革课堂教学,以提高教学实效性的思考也在逐步加深,这也成为每一个高中历史学科一线教师所要研究的的重大课题。而从近几年
选择41头10至21月龄健康、生长发育良好的红安格斯为父本的杂种(F1代)牛,在生产条件下对其进行体重、体尺生长发育规律和血液、尿液的常规和生化指标研究,其中,红安格斯牛♂
问题教学法,就是以问题为载体贯穿教学过程,使学生在设问和释问的过程中萌生自主学习的动机和欲望,进而逐渐养成自主学习的习惯,并在实践中不断优化自主学习的方法,提高自主学习能
随着规模化鸡场在养鸡产业中所占的比例越来越大,规模化饲养管理技术的重要性越来越高,比如育雏技术。雏鸡一生中前1~3周(特别是前72 h)尤其重要,这段时间主要以血管、羽毛和