维基百科在IR4QA系统中的应用研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:alucardlr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。本文主要基于NTCIR8中所做的工作,研究的是问题理解和信息检索这两个中文问答系统中的主要部分,即IR4QA阶段的研究,并最终实现了这个IR4QA系统。问题理解阶段是所有涉及到自然语言接口系统的研究内容,是问答系统开始执行的第一个阶段,这个阶段的分析结果对后面的几个阶段的处理有着重大的影响;信息检索阶段在问答系统中处于中间的执行阶段,它的分析结果将会极大地影响后续模块的结果质量。本文通过比较和分析一般问答系统中这两个阶段目前存在的问题,找出更有效的处理方法应用在我们的系统中。本文在前人的研究基础上作了如下的一些工作:(1)整理并分析国内外有关自动问答系统与搜索引擎技术的研究现状,结合两种系统的长处,对于当前使用者在运用搜索引擎时出现的搜索结果冗杂、花费时间长、结果准确度不高等一些问题,提出了将维基百科应用于自动问答系统的方法,即基于维基百科的IR4QA系统,设计并实现了该系统。(2)通过分析系统最终达到的效果,本文在系统设计初期就制定了一系列切实可行的方法。以这些方法为基础,同时采用分层以及模块化的设计思想,确定了系统的设计原则,并将系统分为索引生成模块、问题分析模块、查询扩展模块、文档检索模块和文档重排模块。(3)研究了系统中涉及到的一些关键技术,对实现过程中遇到的难点做了理论和技术的积累,并提出了切实可行的解决方案。(4)在问题分类时,结合问题集中问题的特点,并考虑到汉语语法和语义分析的庞大工作任务,提高系统的质量,系统没有采用一般用在英文问答系统里面的机器学习的问题分类方法,而是利用启发式的规则,通过识别问题中的疑问词来工作的。这对于问题集中的这些句法简单的问题能达到良好的识别效果。(5)对于问题与查询文档中存在的词不匹配的情况,采用了基于维基百科的查询扩展方法,包括维基页面的查找、相关段落的定位和扩展词的选取。通过实验对比证明此方法能够有效地提高检索结果的质量。(6)为了进一步提高检索结果的准确率,系统还在文档重排模块使用BM25算法对检索结果进行重排,重排后得到最终的检索结果。
其他文献
在数据中心建设中,来自各业务系统的海量数据没有一致和统一的数据定义,需要元数据管理工具提供元数据的统一视图,对这些数据来源、运作和变迁等情况进行跟踪分析。传统的元数据
随着互联网技术和多媒体技术的快速发展,多媒体更加容易被传播、复制和篡改,使得对其进行版权保护成了一个难点问题,基于内容的拷贝检测技术是解决多媒体版权保护的一个有效的方
基于网络的系统环境通常具备动态、开放等特点,这就要求各种网络化的系统能够在这样的环境下按需而变,以满足功能和质量的需求。因为这类环境先天就决定了运行时可能涌现各种
投票是现代社会中一项非常普遍的活动,是体现民主的重要途径之一。传统的投票活动要求投票者到指定地点投票,大型投票活动还需要长时间排队投票,给投票者带来了诸多不便。随着计
蛋白质相互作用在新陈代谢、信号传导与识别、细胞周期调整、复杂蛋白复合物的形成、癌症发生等方面都发挥着至关重要的作用。因此,研究蛋白质间的相互作用不仅有助于全面了解
近年来,伴随着Web服务技术和其相关技术的高速发展,Web服务市场中服务的数量呈现出迅猛增长。在此背景下,Web服务的门户网站以及在线服务市场逐渐涌现,并成为Web服务搜索与发现的
信息技术高速发展的今天,人类生活越来越依赖计算机技术,由此背景下的计算机安全技术越发凸显其重要性。Rootkit是90年代后期成熟的后门技术,其中基于Linux内核的虚拟文件系
对地观测系统(Earth Observation System, EOS)是使用航天遥感器实现对地观测,它的建立有非常重要的意义,例如可以实现军事侦察,进行地球资源勘探,获取区域立体影像从而进行
云计算是下一代IT企业架构,但是云计算的安全问题阻碍了其大规模应用,其中一个主要的挑战是远程公开地对不可信的云存储服务器上的用户数据进行完整性检验。然而由于用户有限的
近年来,微电子技术、传感器技术、无线通信等技术的发展与进步,共同推动了具有多功能、低能耗的无线传感器网络的产生及发展。无线传感器网络是由大量廉价传感器组成的一种无基