限定领域下基于概念图的文本检索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xxak48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是采用基于关键词的检索方法,其核心是关键字符的机械式匹配,存在的问题之一就是召回率和准确率比较低,从而导致检索系统的整体性能不理想。基于概念的检索通过基于语义的自然语言处理来提取文本的各种概念信息,根据对用户查询的准确理解来检索文本库中相关的信息以提供较好的检索结果,有效地弥补了关键词检索存在的缺陷。本文就基于概念的检索中文档和查询的标引技术和匹配算法进行了研究,主要研究工作如下:首先,扩展Sowa概念图的定义,提出了一种更适于自然语言自动分析的标引形式——递归概念图。这种标引方式不仅需要识别文本中的有效概念,还需要确定它们之间的语义关系,是真正语义层次上的标引方法。在用概念图对文档和查询进行标引的前提下,还给出了文档概念图和查询概念图之间的匹配算法来计算两者之间相似度,检索结果可以按此进行排序。其次,构建了“游船”领域的概念结构,它对文本的概念图标引以及文档概念图和用户查询概念图之间的相似度计算起支持作用。这项工作分两部分:在有关“游船”领域的200个文本标题中,提取概念并组织成概念分类树;总结这些概念之间的语义关系,将这些关系编号,加入到概念结构中。然后,在计算机上实现我们的检索模型。在实现过程中,我们采用了一些技术来提高检索效率,如:利用XML来表示文本的概念图标引,还利用构建哈希表加速概念相似度的计算等。最后,利用我们实现的检索系统在与“游船”领域相关的文本集上与布尔模型和进行了对比实验。从实验结果看,对于绝大多数用户查询来说,我们模型检索性能(召回率和准确率)的优势比较明显。
其他文献
在自然语言处理的研究中,词语聚类算法是被广泛研究的课题。它在自然语言处理各个应用中均扮演十分重要的角色。词聚类算法在文本信息检索,机器翻译,语音识别以及自然语言理解
由Bosch公司所开发的CAN总线控制技术,获得了国际标准化组织的认可及许多半导体器件制造商、网络系统开发商的支持,被广泛地应用于汽车、工程机械和工业现场控制,是一种性能优异
本文研究了数据集成环境下的ETL工具设计与实现技术,重点探讨了建立在Web服务基础上的ETL实现方式及人工智能技术在数据清洗方面的应用,并作了改进。本文首先介绍ETL的概念、
随着科学计算的日趋复杂,多单位协作日益频繁,大型科学与工程项目的组织与实施都面临着众多人员、大量异构计算资源、多信息系统之间的协作与交互。本文首先从研究目前国内外
Shamir于1984年开创性地提出了基于身份的公钥密码体制。在该体制中,Shamir建议使用能标识用户身份的信息作为公钥,比如名字或email地址。基于身份密码体制的主要优势在于它减
数字水印技术是近年来国际信息安全界兴起的一个前沿研究课题,是一种十分贴近实际应用的信息隐藏技术。数字水印技术通过把水印信息嵌入到数字图像、音频、视频等多媒体数字
虚拟水电仿真系统,是带有虚拟可视化场景的水电仿真系统。能够让水电站在培训学员和理论研究的过程中,直观地了解设备的运行状况,更重要的是给学员以真实操作的感受,减少学员
蛋白质二级结构预测问题是生物信息学的重要问题之一。本文对蛋白质二级结构预测问题进行了研究,建立了蛋白质二级结构预测数据库。研究了蛋白质的基本组成成分氨基酸的编码方
在电信企业前台营业受理和服务中,证件信息的手工录入、证件图像的复印和通过密码查询用户信息等皆因为手工作业用时长、效率低、用户信息安全保密差等原因一再影响电信企业
人体生物特征识别技术(Biometric)是一种将信息技术与生物技术相结合,利用人体本身具有的生物特征进行身份识别的技术。生物特征识别将在国家安全、金融证券、社会福利、电子商