面向科技文献的智能检索与推荐方法研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:koel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的快速增长,谷歌和百度作为通用的网页搜索引擎,已成为人们获取信息的重要手段。然而,针对互联网上的大量科技文献数据,对统一的科技文献智能检索的研究还存在着欠缺,而且在新构建的科技文献检索平台上,对如何有效地解决科技文献推荐系统“冷启动”的问题也没有很好的解决方法。为此,对面向科技文献的智能检索与推荐方法进行了研究,论文的研究成果为构建统一的面向科技文献的智能检索和推荐系统提供了方法与思路,具有重要的理论意义和应用价值。本文主要研究内容包括:(1)研究了科技文献索引构建方法。为了提高构建索引的质量,首先,针对科技文献中不同字段域的特点,提出了分词,索引和存储等文献字段配置方法。其次,为了提高中文分词的质量,针对科技文献关键词大都是学术专业名词的特点,通过统计和人工筛选,选取适量的关键词以构建分词扩展词典。为了提高Lucene构建索引的效率,提出了使用多线程写多目录的索引构建方法,解决了单目录索引构建中由大容量索引段合并而产生的索引构建效率低下的问题。(2)研究了科技文献索引查询方法。为了提高查询结果的相关性,对科技文献中不同重要程度的字段赋予不同的权值,并提出了一种基于Word2vec的查询扩展方法,该方法可以计算扩展短语和整个原始查询语句的相关性,解决了多个扩展短语如何排序的问题。为了提高索引查询的性能,提出了使用缓存技术和优化查询结果等方法。(3)研究了科技文献推荐方法。在部分科技文献缺失参考文献的情况下,为了解决科技文献推荐系统“冷启动”的问题,提出了一种基于作者频繁项集的科技文献推荐方法,该方法针对科技文献大多具有多个作者的特点,给用户推荐兴趣文献中合作者的其他文献。首先,增加Fp-Growth算法处理文献ID的能力,使得该算法能够计算作者频繁项集及对应的科技文献;其次,在频繁作者项集所产生的候选文献基础上,增加文献关键词等特征,最后对推荐候选文献进行打分和排序,并推荐给用户得分Top-N的文献。(4)实验结果与系统实现。从实验的角度对提出的方法进行了验证与分析,实验表明提出的方法具有有效性。在科技文献检索和推荐功能的基础上,增加了个人信息管理,用户管理,设计和实现了简洁的前端页面等。最终完成了面向科技文献的智能检索与推荐系统,并对系统进行了部署。
其他文献
对一起大型抽水蓄能机组带机械制动升速典型故障案例进行分析研究,从提高机械制动控制的安全性和可靠性方面给出防范措施及建议,对大型抽水蓄能机组机械制动控制的设计、调试
探讨了煤层气的开采方式,煤层气田地面集输流程,我国煤层气开发利用现状及前景;页岩气的钻井技术、水力压裂技术,我国页岩气的开发利用情况;天然气水合物的形成条件、开采方
<正> 中草药注射剂是在无产阶级文化大革命以来,在毛主席革命卫生路线指引下,广大医药卫生工作者,为了落实毛主席光辉的“6.26”指示:“把医疗卫生工作的重点放到农村去”的
分析供热管道上大口径阀门泄漏的原因,主要是由带压开启或带压关闭过程中介质高速冲刷阀门密封面,造成密封面破坏引起的。如果选型合理,以设置牺牲品阀门来保护大口径主关断
随着信息系统规模的扩大和维护要求的提高,信息系统运行维护经费投入也会逐年增长。通过对信息系统运行维护预算管理模式的探讨和研究,对信息系统运行维护管理模式、运行维护
矿业是澳大利亚的传统产业和优势产业,是其经济发展的中坚力量。本文简要讨论了矿业在澳大利亚国民经济中的重要性问题,包括:是国际市场最重要的矿产原料供给者之一,是最重要
近年来随着对线粒体的深入研究,人们认识到线粒体对于肿瘤细胞凋亡有着至关重要的作用。这一发现促进了人们对线粒体靶向制剂的研究。线粒体靶向分子可以使药物特异性的作用
本文简要讨论了澳大利亚非金属矿工业的基本现状,包括资源与储量、产量、主要运营公司与生产矿山、消费与进出口贸易、产业主要经济指标等,并在此基础上,对澳大利亚非金属矿
目的医学统计学是获取医学科学研究最佳证据的必要工具,其难度性和理解性一直是困扰医学统计学教学的瓶颈。了解医学研究生的学习态度及其相关影响因素,有助于优化医学统计学
基于亨利&#183;列斐伏尔的“空间转向”理论解析美国非裔文学作品《日用家当》的文化传承观:文化传承要生产出涵盖物质和精神双重维度的“表征的空间”,是回归日常生活实践的