论文部分内容阅读
自20世纪90年代以来,互联网快速渗透到人们的生活和工作中,互联网上的信息变得越来越多,越来越难于管理。如何从这些海量信息中快速准确的获取人们所需要的信息成为了一个迫切需要解决的问题。虽然现在的搜索引擎,例如百度、谷歌、雅虎等,在网上信息检索方面已经取得了很大的成功,但是这些搜索引擎是被设计用关键词组合来描述问题,这导致了用户有时不能够准确的表示自己的需求。另外,这些搜索引擎返回的是大量的与查询关键词相关的网页列表,在这些网页列表里往往只有少数信息是用户实际需要的。传统搜索引擎在这两方面的不足已经引起了信息技术研究者的重视,目前基于自然语言问答方式的搜索引擎成为了下一代搜索引擎的重要发展趋势。自动问答技术曾经是自然语言处理领域中一个名噪一时的研究热点,它综合使用了自然语言处理等许多技术。传统的问答系统的知识库一般都是基于固定的文档集合,但是现在互联网上的大量网络资源为问答系统的研究提供了一种新的良好的知识来源,网络资源一般都是自由文本。如今,开放领域问答系统的研究和开发已经有很多,其中涉及到人物、时间、地点、历史等重大事件和专业技术领域,开放领域的问答系统在逻辑上是多个受限领域问答系统的组合。因此,受限领域问答系统的理论研究和应用开发在一定程度上推动了开放领域问答系统研究的发展。本文就是针对人物简历这一受限领域问答系统的理论研究和设计,本文提出并设计了一个基于人物简历的问答系统,这是一个受限领域的问答系统。利用缩小问题的覆盖面的方法,能够达到提高系统准确性的目的。在问答系统研究中,开放领域问答系统由于涉及面广泛而很难达到较高的准确率,那么为了达到提高问答系统的准确性的目的,一个最简单的方法就是对问题的覆盖面进行限制。传统问答系统的知识库一般都是基于固定的文档集合,这有时候会不能满足用户各种各样的需求,如果能将以自由文本形式存在的丰富的网络资源和问答系统相结合,则可以解决问答系统知识瓶颈及搜索引擎返回信息过多的问题。因此基于网络的问答系统应运而生。本文的人物简历问答系统就是基于互联网的问答系统。首先,本文从问答系统的定义出发,分析了目前问答系统国内外研究的现状,明确了问答系统的发展轨迹和技术特色;其次,本文对问答系统的一般通用结构进行了分析,确定了问答系统至少要包括三个功能模块:问题分析模块、信息检索模块、答案抽取模块;最后,本文在问答系统一般结构的基础上,对人物简历问答系统进行了结构设计和数据库设计,确立了人物简历问答系统的基本结构,并且以人物姓名的提问方式简化了问题分析模块,最终得出了人物简历问答系统中的数据流程、人物简历模板、数据表以及系统E-R模型。