【摘 要】
:
大数据时代的来临,让各种文献信息纷纷以电子化文档的形式存在于网络中,其中科学文献的电子化文档不仅带来了文献知识的传播,也促进了科学研究水平的发展。面对海量的电子科
论文部分内容阅读
大数据时代的来临,让各种文献信息纷纷以电子化文档的形式存在于网络中,其中科学文献的电子化文档不仅带来了文献知识的传播,也促进了科学研究水平的发展。面对海量的电子科学文献,如何用有限的时间和精力,了解每篇科学文献所阐述的主题内容,并快速地找到自己需要的资料,成为学者们迫切的需求。主题提取的研究正是解决上述这种在浩瀚的信息中快速提取自己需要的信息的方法之一。传统的主题提取方法主要是通过词频、词语的位置因素来提取文档的主题内容,并未考虑到词与词之间的语义关系,比如同义词、一词多义现象。所以近年来各种关于主题模型、本体和知识库等考虑了词与词之间语义关系的主题提取研究变得层出不穷,并大大提高了主题提取的质量和可靠性。因此,本文认真分析了近年来基于语义层次的主题提取研究的发展,提出一种基于语义和引用加权的科技文献主题提取算法,希望该方法能够为主题提取领域的研究提供参考。基于语义和引用加权的科技文献主题提取算法主要是在Labeled-LDA主题模型的基础之上,引入引用内容和K-means聚类分析方法。引用内容代表着施引文献和被引文献之间的联系,在一定程度上显示了施引文献的主题内容,所以本文运用Labeled-LDA主题模型训练引用内容语料集,得到引用内容-主题概率分布,处理该部分的数据获得文档的主题概率分布,最后通过K-means算法聚类文档集,提取出每类文档集的主题内容。在实验部分,本文采用PubMed生物医学数据库中的数据测试了该方法的可靠性,准确提取出文档集的主题内容。
其他文献
<正>在各种商品包装容器中,瓦楞纸箱的应用占首位,设计精良的纸箱能在产品的运输、流通中发挥优势作用。随着科学技术的迅猛发展,产品造型日趋复杂,产品包装的设计也日益受到
在经济全球化发展的背景下,产业发展的集群化越来越成为一种普遍现象。一方面产业集群在世界各国的迅速发展和它对地区经济发展的重要贡献,使得它成为很多学科的重要研究对象
为了探讨哺乳期和断奶后饲喂不同日粮的仔猪小肠发育的分子机制,本研究利用猪全基因组表达谱芯片进行两个试验,分析不同生长发育阶段仔猪小肠全基因组转录谱的变化,并对差异
通过香豆去皮及香豆胶提取的单因素实验与正交实验,研究了各因素对香豆去皮以及提胶效果的影响规律和优化工艺参数。流变学实验结果表明,冷水溶和热水溶香豆胶溶液的表观粘度
《史记》文本研究是根本性研究,无尽时,无止时.要综合运用前人研究成果,以全新的视角进行创新思考,深化研究.一是文本疏证研究,从题评、句释、研讨、语译、集说等方面作立体
介绍了XJX-T12型浮选机的结构,特点,性能,条件及其在淮北选煤厂的应用效果,并简单地评估了该设备的经济效益。
当前监狱警察的心理健康问题不容忽视,西部欠发达地区监狱基层青年警察的心理健康问题亟待解决。本文根据调研情况,以西部监狱基层青年警察的心理问题为切入点,分析西部监狱
<正>烟草行业现状及未来发展趋势1烟草行业现状近年来国家不断加强宏观调控,烟草企业的自主性相对较差,造成生产组织的临时性、突击性状况比较多,连带配套原辅供应厂家的生产
近些年来,随着我国社会经济的快速发展,危险废弃物的产量不断增加,给我们的生态环境、居民的生活及我国的可持续发展造成了较大危害,引发了一系列的环境问题,危险废弃物的处
《英美编目条例(第2版)》(AACR2)作为上个世纪出现的西方编目“圣经”,在互联网技术不断革新、数字资源不断膨胀的今天,渐渐凸显其局限性,其主要面临三个实践问题:第一,数字