科技文献共享平台全文检索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sdngam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet规模的迅速增长和内容的不断丰富,同时也给人们进行有效访问资源带来了困难。由于提问的不专指和文献资源量巨大的矛盾,系统往往会返回数量庞大的检索结果。若无一种好的排序方法,用户无法快速和准确定位所要查找的文献,因此一个好的排序算法对信息检索系统来说是至关重要的。为此,该论文结合传统信息检索的排序算法以及文献自身特点,提出了综合考虑文献印证关系及文献主题过滤的文献排序方法。首先对文本向量进行主题无关词条过滤,然后再计算文本向量间的正文相似度,最后通过引文印证对原始相似度进行调整。SemreX的查找相似文献的功能就是为用户提供和他满意文章相近的文献。由于查找相似文献很耗费时间,为提高查找相似文献的速度以及查找准度,采用了特征压缩,文献候选集合的办法提高了检索效率,采用信息论的办法提高了检索精度。SemreX通过文本在线分类,采用了GUI展示检索结果的方法,让用户可以很方便的浏览检索结果。通过TREC_EVAL程序对采用了引文印证排序算法的检索结果进行了测试,试验表明该方法可以提高信息检索的准确率。改进后的算法使R-Precision数值提高了3.4个百分点,改进7%;使Average Precision数值提高0.27个百分点,改进9%;Interpolated Recall Precision Averages以及Precision At N Document都比传统的检索方法效果好。一般而言,用户希望系统返回的排名靠前的文献满足需求,即希望排名靠前的准确率高,因此Interpolated Recall Precision Averages,特别是Recall Level 20%以前的准确率,以及Precision At N Document,特别是N较小(一般为30)时准确率相对更重要。通过测试,反映出综合考虑文献印证关系及文献主题过滤的方法相比传统方法有优势。
其他文献
在信息社会里,手机已成为人们日常生产生活中必不可少的通讯工具。随着技术的发展,手机的性能比过去有了巨大的提高,几乎可以与九十年代中期的PC机相媲美。可以说当今的手机已经
随着互联网的快速发展,信息超载问题变得愈发突出,用户无法快速从大量的网络信息资源中获取对自己有用的信息,导致信息的使用效率降低。推荐系统作为一种信息过滤的重要手段,
网络控制系统是通过网络实现控制机构之间相互通信的全分布式实时反馈闭环控制系统,呈现出传感器、控制器和执行器空间分离的物理特征。二十一世纪初,在全球富有盛名的19位学
随着INTERNET的飞速发展,网上的信息越来越丰富,激增的数据背后隐藏着许多重要的信息。用户使用现有的搜索引擎浏览页面时,虽然能部分解决“资源发现”的问题,但精度不高,不
利用计算机图形学理论,在三维场景中对气体进行渲染,对于虚拟现实和环境保护等方面有着重要的意义。随着计算机硬件的发展,和实时流体模拟理论的进步,建立复杂环境中的气体渲染已
工作流技术是当前计算机应用领域的一个研究热点,利用工作流技术对企业进行业务过程的建模和分析不仅可以规范化企业的业务流程,发现业务流程中不合理和低效的环节,进而对企
混沌现象是20世纪人类最重要的科学发现之一。在过去的20多年时间里,人们对混沌的研究主要是从一些实验及数值模拟来观察和量化混沌。随着对混沌现象认识的不断深入,如何应用混
近年来,随着数据库技术以及数字化技术的不断进步,针对高维时间序列的数据挖掘研究引起了越来越多学者广泛的兴趣。然而,由于数据维度的增多,大大增加了数据挖掘算法的复杂性,使得
从上个世纪九十年代初期开始,基于内容的多媒体检索就开始成为了在多媒体信息检索领域中的一个研究热点。并且基于内容的多媒体检索的研究也一直是计算机视觉领域中的一个非
汉语依存关系解析是句法分析的重要方法,而句法分析是自然语言处理的关键技术。汉语依存关系解析是基于汉语依存文法来确定句子中词与词之间的依存关系。词是句子结构中的最