论文部分内容阅读
随着信息技术的快速发展,网络上的信息和数据越来越多,人们对信息检索的需求越来越大。如何从大量的信息中搜索到需要的信息,是一个困难和挑战。人们进行信息检索主要是利用搜索引擎。传统的利用关键词进行搜索的搜索引擎存在搜索过程复杂、返回信息量大等问题。因此,学者们提出了自动问答系统的概念。自动问答系统,对用户使用自然语言提出的问题,经过一系列处理,用自然语言以简洁的方式返回答案给用户。其中最常见一种是基于常问问题集(FAQ)知识库的自动问答系统。而句子相似度计算是基于FAQ自动问答系统的核心。目前主要的句子相似度算法有基于向量空间模型TF-IDF算法、基于语义的句子相似度算法等。本文采用的是基于WordNet语义词典的基于语义相似度算法,并与编辑距离计算方法相结合。WordNet是现今世界上最通用的一部英语语义词典,它利用同义词集合和同义词集合间的语义关系组织起来。WordNet为自然语言处理、信息检索等领域提供了很大的帮助。本文首先对自动问答系统的相关技术进行了介绍,然后重点介绍了本文使用的基于WordNet进行句子相似度计算的方法。其中通过对几种常用的句子相似度计算方法进行分析,针对现有的句子相似度计算方法,本文提出了一种既考虑了句子语义信息又考虑了句子中词语位置信息的一种新的句子相似度计算方法。其中句子语义信息是利用WordNet语义词典求句子中词语的最大匹配方法进行计算,词语位置信息是利用基于编辑距离进行相似度计算。然后把这种基于WordNet句子相似度计算方法运用到自动问答系统中,利用这种新方法设计和实现了一个基于FAQ的自动问答系统。在自动问答系统的基础上,对新的句子相似度计算方法进行测试并确定方法权值,同时对比不同的句子相似度计算方法,对实验结果进行分析,验证新方法的有效性。最后,对本文所做的研究工作进行总结,并指出工作中还需要一步解决的问题,同时指出了可深入研究的方向和发展前景。