论文部分内容阅读
伴随着Internet规模的迅速增长和内容的不断丰富,同时也给人们进行有效访问资源带来了困难。由于提问的不专指和文献资源量巨大的矛盾,系统往往会返回数量庞大的检索结果。若无一种好的排序方法,用户无法快速和准确定位所要查找的文献,因此一个好的排序算法对信息检索系统来说是至关重要的。为此,该论文结合传统信息检索的排序算法以及文献自身特点,提出了综合考虑文献印证关系及文献主题过滤的文献排序方法。首先对文本向量进行主题无关词条过滤,然后再计算文本向量间的正文相似度,最后通过引文印证对原始相似度进行调整。SemreX的查找相似文献的功能就是为用户提供和他满意文章相近的文献。由于查找相似文献很耗费时间,为提高查找相似文献的速度以及查找准度,采用了特征压缩,文献候选集合的办法提高了检索效率,采用信息论的办法提高了检索精度。SemreX通过文本在线分类,采用了GUI展示检索结果的方法,让用户可以很方便的浏览检索结果。通过TREC_EVAL程序对采用了引文印证排序算法的检索结果进行了测试,试验表明该方法可以提高信息检索的准确率。改进后的算法使R-Precision数值提高了3.4个百分点,改进7%;使Average Precision数值提高0.27个百分点,改进9%;Interpolated Recall Precision Averages以及Precision At N Document都比传统的检索方法效果好。一般而言,用户希望系统返回的排名靠前的文献满足需求,即希望排名靠前的准确率高,因此Interpolated Recall Precision Averages,特别是Recall Level 20%以前的准确率,以及Precision At N Document,特别是N较小(一般为30)时准确率相对更重要。通过测试,反映出综合考虑文献印证关系及文献主题过滤的方法相比传统方法有优势。