论文部分内容阅读
随着互联网信息的快速增长,谷歌和百度作为通用的网页搜索引擎,已成为人们获取信息的重要手段。然而,针对互联网上的大量科技文献数据,对统一的科技文献智能检索的研究还存在着欠缺,而且在新构建的科技文献检索平台上,对如何有效地解决科技文献推荐系统“冷启动”的问题也没有很好的解决方法。为此,对面向科技文献的智能检索与推荐方法进行了研究,论文的研究成果为构建统一的面向科技文献的智能检索和推荐系统提供了方法与思路,具有重要的理论意义和应用价值。本文主要研究内容包括:(1)研究了科技文献索引构建方法。为了提高构建索引的质量,首先,针对科技文献中不同字段域的特点,提出了分词,索引和存储等文献字段配置方法。其次,为了提高中文分词的质量,针对科技文献关键词大都是学术专业名词的特点,通过统计和人工筛选,选取适量的关键词以构建分词扩展词典。为了提高Lucene构建索引的效率,提出了使用多线程写多目录的索引构建方法,解决了单目录索引构建中由大容量索引段合并而产生的索引构建效率低下的问题。(2)研究了科技文献索引查询方法。为了提高查询结果的相关性,对科技文献中不同重要程度的字段赋予不同的权值,并提出了一种基于Word2vec的查询扩展方法,该方法可以计算扩展短语和整个原始查询语句的相关性,解决了多个扩展短语如何排序的问题。为了提高索引查询的性能,提出了使用缓存技术和优化查询结果等方法。(3)研究了科技文献推荐方法。在部分科技文献缺失参考文献的情况下,为了解决科技文献推荐系统“冷启动”的问题,提出了一种基于作者频繁项集的科技文献推荐方法,该方法针对科技文献大多具有多个作者的特点,给用户推荐兴趣文献中合作者的其他文献。首先,增加Fp-Growth算法处理文献ID的能力,使得该算法能够计算作者频繁项集及对应的科技文献;其次,在频繁作者项集所产生的候选文献基础上,增加文献关键词等特征,最后对推荐候选文献进行打分和排序,并推荐给用户得分Top-N的文献。(4)实验结果与系统实现。从实验的角度对提出的方法进行了验证与分析,实验表明提出的方法具有有效性。在科技文献检索和推荐功能的基础上,增加了个人信息管理,用户管理,设计和实现了简洁的前端页面等。最终完成了面向科技文献的智能检索与推荐系统,并对系统进行了部署。