【摘 要】
:
随着信息技术的发展,大量数据充斥着整个互联网,如何在海量数据中获取有效信息,日益成为一个热门的研究课题。传统的搜索引擎在一定程度上满足用户检索需求,但其存在一定缺陷。一方面,传统的搜索引擎是采用基于关键词组合的搜索方法,其并不能准确反映用户的检索需求;另一方面,搜索引擎返回的结果是网页列表,其中包括标题和摘要,需要用户进一步筛选。问答系统在一定程度上弥补了传统搜索引擎的不足。一方面,问答系统,用户
论文部分内容阅读
随着信息技术的发展,大量数据充斥着整个互联网,如何在海量数据中获取有效信息,日益成为一个热门的研究课题。传统的搜索引擎在一定程度上满足用户检索需求,但其存在一定缺陷。一方面,传统的搜索引擎是采用基于关键词组合的搜索方法,其并不能准确反映用户的检索需求;另一方面,搜索引擎返回的结果是网页列表,其中包括标题和摘要,需要用户进一步筛选。问答系统在一定程度上弥补了传统搜索引擎的不足。一方面,问答系统,用户可以自然语言进行提问;另一方面,返回相对简洁的答案。近年来,研究者们针对问答系统提出了诸多方案,仍然存在问句分析效果差,短文本相似度计算复杂,最终返回的答案质量较差等问题。针对这些问题,本文基于百度知道对基于Web的问答系统进行研究,做了如下的工作:(1)问句句式的分析:现有的句式分析技术,尤其在问答领域主要是针对限定领域的问答系统。常见的问题分类对于真实问句不太适用。本文对问句进行分析,引入词模和问题元,对问句的句式进行探索。通过问题元对问句类别进行细分,可以采用不同的策略来回答用户较为复杂的问题。例如,请求介绍电影,音乐等,可以通过传统的推荐算法来回答用户的问题。(2)相似度算法的研究:本文针对短问句的相似度计算较为复杂的问题,引入了词模和问题元机制对短问句进行分解,并计算其相似度。而针对长问句,由于其含有的信息量较多,传统的相似度算法,如tf-idf计算余弦相似度算法的效果较好。本文对相似度计算,将问句分解与传统方法相结合,考虑了句子长度,提高了相似度的计算效果。(3)答案质量的研究:本文的数据来自百度知道。本文研究常用的爬虫技术和反爬虫技术,通过实验爬取了百度知道上的问题和答案对,以及一些附加的属性(问题提出的时间、答案回答的时间、答案获得的点赞数以及差评数等)并进行统计分析。部分问题,百度知道提供了最佳答案。如何给没有最佳答案的问题找到较好的答案,本文综合考虑了答案本身属性、用户属性以及答案的点赞数和差评数等附加属性。为了提高答案质量,本章采用主动学习算法,将最不容易区分的答案进行手工标注,减少了标注工作量,同时提升了答案质量。最后,本文基于Git Hub上开源项目Question Answering System问答系统,并结合自己的对百度知道中问句的分析、相似度算法的改进并在此基础之上搭建了一个小型问答系统,可以完成一部分非事实性问题的回答,具有实用价值。
其他文献
钢制材料广泛应用在油气管道和压力容器中,在这些设备的长期使用中,由于氧化、腐蚀和外力等作用,钢制材料表面会出现凹坑、裂纹等缺陷,容易引发安全事故,造成环境污染甚至人
服务器辅助验证签名方案由数字签名方案和服务器辅助验证协议组成.在服务器辅助验证协议中,签名验证的一些计算任务可以由不可信的服务器执行,而计算能力较弱的验证者(如功耗受限的智能终端)只需要进行少量的简单计算.因此,服务器辅助验证签名方案对于低功耗的计算设备非常有用.本文从以下三个方面对服务器辅助验证签名方案进行了研究:首先,对一个基于身份服务器辅助验证签名方案(YYG-SAVS方案)和一个双向服务器
基于虚拟现实技术的校园场景研究与实现已成为教育教学的热点。随着信息技术和人工智能技术的广泛应用,对基于虚拟现实技术的校园仿真场景的研究具有重要的应用价值和社会意义。虚拟现实技术运用到校园场景中,让整个场景具有沉浸感、交互性和构想性。该技术将校园场景虚拟化,将人物投入其中模拟人的感官,通过指令操作实现人机交互。虚拟校园技术将校园场景通过虚拟现实技术搭建可以弥补过去实地查看、纸质标记耗时耗力的缺陷,且
协调个体与他人共同行动的能力对我们个人和任务的成功至关重要,成功的人际互动需要在特定背景下双方对相关信息的共同理解。而日常生活中与他人互动常常会受到情绪、人际等各种社会因素的影响,以往研究已经发现不同类型的人际情境对联合行动会产生或多或少的影响,然而关于个体内外相互依赖与否是不是影响联合任务表征的决定因素在前人表述中暂未形成统一的结论,在人际情境对被试共同表征的影响机制研究上尚存在争议。本研究采用
为满足多媒体业务与视频数据交互的需求,帧率上转换(Frame Rate Up-Conversion,FRUC)技术成为了视频后处理领域研究的热点。该技术通过在两个相邻解码帧插入中间帧的方式,实现视频从低帧率到高帧率的转换。在高清显示终端设备中,利用运动补偿FRUC提高运动估计准确性,增强运动矢量场平滑度,能够有效避免低帧率视频造成的画面抖动和运动模糊等缺点,为观众带来更加舒适的视觉体验。然而,随着
线结构光测量技术在工业生活中应用比较广泛,比如在食品行业、林木行业、交通行业以及电子行业等,该测量方法具有主动、非接触的优点。线结构光视觉测量系统中运用到线结构光测量技术,该系统构造简单,对于光条图像容易获取和处理,实时性好。与激光雷达相比,线结构光视觉测量系统在道路障碍探测识别上具有成本低、识别快的优点,所以可以利用线结构光测量技术代替激光雷达的部分功能,来探测障碍物。本文的研究内容分为以下几部
20世纪末以来,大学生参与高校学生管理已经逐渐被关注,并且成为全球很多国家高等教育改革的关键问题之一。许多国家关注到了大学生参与高校管理的问题,并陆续建立了相应的高校大学生参与管理保障体系。越南不仅经济发展越来越快,同时也关注高等教育发展状况。但是,关于大学生参与高校学生管理的政策还不够全面。所以,越南需要学习国外先进高等教育关于这方面的政策和实践经验,来保证高等教育健康发展,同时也要结合国内高等
本文致力于研究偶模谐振下的环天线,对均匀圆环和非均匀圆环进行了理论分析,获得非均匀圆环天线的基模和三阶模,乃至更高阶工作模式的远场理论公式,提出了一种非均匀圆极化环天线的设计方法,并对双频圆极化方环天线提出改进设计。主要研究内容包括:1.论文从环形天线的经典理论出发,对均匀电流分布和余弦电流分布的均匀圆环天线进行分析,推导出非均匀圆环天线的基模和三阶模远场理论公式,初步验证了基模和三阶模的辐射特性
随着深度学习的快速发展,神经网络算法被广泛应用于图像处理领域,尤其在图像分类、目标识别、图像分割等研究方向取得了突破性的进展。角膜塑形镜(Orthokeratology,OK镜)的常规验配方法是由眼科医生采用人工的方式,对患者角膜地形图中的压平区域进行有效分割,并根据压平区域实施验配。这种人工的验配方法耗时长、效率低,不适合大规模普及。本文介绍了一种基于神经网络的智能配镜算法,用于实现对角膜地形图
我们对于舞台交流这一词汇并不陌生,那何谓舞台有机交流呢?舞台有机交流就是在有机天性指引下去进行相互行动,他是演员第一自我和第二自我共同参与的双重交流。舞台有机交流重要性在于它激发了有创造力的适应,它让演员与观众共融,它培养了演员临场应变的能力。为了去实现舞台有机交流,我们的行动首先要遵循自然规律,符合生活逻辑;然后要进行有选择、符合人物的交流;最后不能忘记双重交流的特性,每一次的交流都要打开五感五