中文问答系统中的信息检索模型的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yulu0355
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。本文正是对中文问答技术研究的一个探索。 基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。 本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。 最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
其他文献
随着医疗行业数字化进程的不断深入,医学信息数据库中不仅包含病人的结构化数据,而且还包含大量非结构化的医学图像数据,这些数据为医学图像数据挖掘提供了丰富的资源。医学
以基于MDA的软件开发方法为主要研究内容,系统分析并总结了MDA产生背景、意义及国内外研究现状,剖析了主要思想和优缺点,提出了目前仍然存在的一些问题和解决方案。研究了MDA
随着计算机技术和通信技术的迅速发展以及Internet的不断扩展,嵌入式系统得到了越来越广泛的应用。实时的数据处理、网络互连功能、智能化的软件以及良好的功能扩展能力几乎成
图像编辑领域在近些年得到大力的发展,世界各国越来越多的学者开始在图像编辑领域提出新的想法以及解决方案。本文对颜色编辑、形状编辑以及内容编辑进行了深入讨论,提出了图像
随着最近几年高校的扩招,高校的学生规模越来越大,随之而来的问题也越来越多,其中学生考勤的问题越来越突出。由于目前的高校学生的考勤方式主要是人工考勤,由上课老师在课前几分钟进行点名式考查学生的出勤,或者由督导不定时的对教室随机的进行抽查。这种方式最大的缺点就是费时,不仅严重影响到上课的正常秩序而且还浪费时间。学生代答、代上课现象也越来越多,由于是大班授课,这种现象很难考察学生的出勤情况。在这种情况下
新一代VOIP呼叫中心对坐席平台的分布式部署能力和快速开发能力提出了新的要求,本文提出并实现了一种基于软交换技术和H.323协议的、并且同时可以处理话务和应用业务的坐席设
人工神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,涉及生物、数学、物理、电子及计算机技术等各门学科,目前已广泛的应用于图像
随着各种影像设备在医学诊断中的广泛应用,医学图像处理技术对医学科研及临床实践的作用和影响日益增大,其结果使临床医生对人体内部病变部位的观察更直接、更清晰,确诊率也
随着互联网的高速发展,云计算已经成为当今IT最热门的研究方向。而云存储是云计算的一个新的发展浪潮。云存储可以以极低成本为用户提供各种便利的服务,可以说云存储是社会发展
随着VOIP技术的不断发展,网络电话已经进入人类社会生活的各个领域。网络电话以其方便的接入、低廉的运营成本、安全的通话保证,成为众多用户的首选。VOIP系统一般由IP电话终