自动问答系统中基于WordNet的句子相似度计算研究与实现

被引量 : 0次 | 上传用户:aa1bb1aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,网络上的信息和数据越来越多,人们对信息检索的需求越来越大。如何从大量的信息中搜索到需要的信息,是一个困难和挑战。人们进行信息检索主要是利用搜索引擎。传统的利用关键词进行搜索的搜索引擎存在搜索过程复杂、返回信息量大等问题。因此,学者们提出了自动问答系统的概念。自动问答系统,对用户使用自然语言提出的问题,经过一系列处理,用自然语言以简洁的方式返回答案给用户。其中最常见一种是基于常问问题集(FAQ)知识库的自动问答系统。而句子相似度计算是基于FAQ自动问答系统的核心。目前主要的句子相似度算法有基于向量空间模型TF-IDF算法、基于语义的句子相似度算法等。本文采用的是基于WordNet语义词典的基于语义相似度算法,并与编辑距离计算方法相结合。WordNet是现今世界上最通用的一部英语语义词典,它利用同义词集合和同义词集合间的语义关系组织起来。WordNet为自然语言处理、信息检索等领域提供了很大的帮助。本文首先对自动问答系统的相关技术进行了介绍,然后重点介绍了本文使用的基于WordNet进行句子相似度计算的方法。其中通过对几种常用的句子相似度计算方法进行分析,针对现有的句子相似度计算方法,本文提出了一种既考虑了句子语义信息又考虑了句子中词语位置信息的一种新的句子相似度计算方法。其中句子语义信息是利用WordNet语义词典求句子中词语的最大匹配方法进行计算,词语位置信息是利用基于编辑距离进行相似度计算。然后把这种基于WordNet句子相似度计算方法运用到自动问答系统中,利用这种新方法设计和实现了一个基于FAQ的自动问答系统。在自动问答系统的基础上,对新的句子相似度计算方法进行测试并确定方法权值,同时对比不同的句子相似度计算方法,对实验结果进行分析,验证新方法的有效性。最后,对本文所做的研究工作进行总结,并指出工作中还需要一步解决的问题,同时指出了可深入研究的方向和发展前景。
其他文献
对于采用非财务指标的业绩后果,代理理论和权变理论给出了不同的理论指导。本文以158家中国企业为样本,分析了非财务指标采用程度对企业业绩的影响,分别对代理理论和权变理论
阵列信号处理已广泛应用于雷达、声纳、通信、地震勘探和射电天文等多个领域,波达方向(Direction-of-Array, DOA)估计作为阵列信号处理的核心内容,在近30多年来,被国内外学术界和
20世纪80年代,随着我国社会经济发展、城市化进程加快,面对不断加快的生活节奏和不断增大的工作压力,城市居民逐渐开始关注精神文化消费需求;农家乐旅游作为一种新兴的旅游形式应
气体二氧化氯在空间消毒领域具有广阔的应用前景,但其浓度在线检测技术的不成熟在很大程度上限制了它的推广应用。本文基于吸光光度法的检测原理,采用LED作为光源,设计了简化
针对目前国内消防安全网格化管理现状,以消防安全数字网格化管理平台为基础,探讨了基于任务驱动和信息流转的消防安全网格化管理工作体系,介绍了改体系的级别框架、角色分类
目的观察二氧化碳激光治疗与二氧化碳激光联合阿达帕林治疗脂溢性角化的疗效。方法选取2016年12月~2018年12月来本院就诊的脂溢性角化患者148例,按患者就诊顺序分为对照组与试
根据经济性、环境友好性、工艺科学性原则,提出了以预防为主、治理为辅的综合性的新矸石山自燃预控技术方案,形成了分层碾压覆盖技术、自然发火动态监测技术和矸石山生态环境
配偶权是基于合法婚姻关系所产生的夫妻双方所互享权利、互负义务并由夫妻双方专属享有的一种基本身份权,忠实义务与同居义务是配偶权的核心内容,也是夫妻之间的最基本的道德要
自2009年创立至今,我国创业板市场已成为科技型中小企业和自主创新企业的重要融资渠道。我国创业板市场具有上市门槛相对低、IPO公司成长性高等特征。因此相较于其他板块,创业
城市居民最低生活保障制度是国家和社会为保障我国公民基本的生存权,也是维持我国居民最低生活需要而建立的一种保障制度。从20世纪90年代到现在,吉林省进行了经济体制和社会结