基于Lucene的期刊论文库的检索技术研究

来源 :北方工业大学 | 被引量 : 6次 | 上传用户:zhengjjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科研技术水平的不断发展,期刊论文的数量急剧增长。面对大量的期刊论文,对于学术研究者来说,如何找到符合需求的论文就变的非常困难;其次对于期刊论文质量参差不齐的情况,如何找到高质量的论文对于用户来说也是至关重要的;再者如果能把优质的论文主动推荐给用户,这无疑可以节省用户查找资料的时间。所以针对这些问题,本文将实现期刊论文的搜索和推荐。本文采用全文检索技术Lucene以及协同过滤推荐算法实现期刊论文的检索和推荐,主要研究工作如下:为了提高用户检索的论文质量,本文提出了期刊论文的质量评价算法,本文研究了目前现有的论文质量评价算法,并在此基础上提出了更为公正客观的期刊论文质量评价算法。研究了 Lucene的相关度排序算法并对其进行两次优化,首先考虑到检索词项在一篇期刊论文中的位置的重要性,为此对Lucene相关度排序算法做了的一次优化,再次考虑到用户搜索到论文质量的重要性,在此基础上对相关度排序算法做了二次优化,实现了高质量期刊论文相关度排序算法。为实现期刊论文的推荐,本文充分研究了目前的推荐算法,实现了期刊论文的个性化推荐,分析比较了现有的中文分词器,选用了最适合的分词器。本文采用倒排索引技术提高建立索引的效率;使用HDFS分布式系统存储大量的期刊论文;采用PDF抽取技术将非纯文本格式的PDF期刊论文转换为纯文本格式。实验结果表明,本文有效的解决大量的期刊论文的存储和访问,二次优化的相关度排序算法提高了论文搜索的质量,准确性以及召回率。
其他文献
患者男,20岁,因尿频,尿急,尿痛1年余而就诊.无寒热,血象及大便常规正常,小便镜下红细胞++,白细胞+++.B超检查:双肾大小,形态正常,集合系统未见分离.膀胱充盈中等,整个膀胱形
期刊
SonoVue是意大利博莱科公司(Bracco)生产的新型脂质膜包裹六氟化硫(sulphur hexafluoride , SF6)形成的第二代超声微泡造影剂,微泡直径(粒径)范围1~10 μm,平均粒径为2.5 μm,
本文提出仅基于结构时域响应数据识别结构模态参数的方法-局部线性嵌入(Local Linear Embedding,用LLE表示)算法与希尔伯特黄变换(HHT)两种算法相结合。LLE法作为一种降维方