面向全文本的引文重要性分类及其在文献主题识别上的应用

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:jinr0op8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文在科技文献中扮演着重要的角色,体现了后来研究者对前人研究成果的借鉴,是科学知识传播、继承和发展的载体,但不是所有引文都是同等重要的。传统的引文分析方法采用数量指标评估学术文献的影响力,忽视了引用成果的具体贡献,不利于学术资源的公平分配和人才的公平评价。因此引文重要性的分类对于科学评估被引文献的影响起着至关重要的作用。且随着大数据时代的发展,电子学术文献爆炸式增长,从主题多样、数量庞大的文献信息中识别学科及主题研究前沿,探索面向引文重要性的文献主题识别,从而更加准确提取文献主题也成为亟待解决的问题。为研究引文重要性的自动化分类,本文将引文分为重要和不重要两类,利用计算语言学领域的单学科专家标注数据和混合多学科的作者标注数据两种不同类型的数据集进行实验。基于学术文献的全文本内容,本研究实施传统的特征工程,并挖掘基于产生式模型CIM模型的特征,丰富了现有的特征体系。将产生式模型与判别式模型支持向量机SVM和随机森林RF相结合,基于监督学习对引文重要性进行自动化分类,实验结果表明基于产生式模型的特征对于提高重要引文识别的性能有着重要的作用,模型的分类效果相对于前人的研究有了一定的提升,RF分类器的性能优于SVM,且重要引文的识别与所属学科领域相关。由于有标签数据较难获取且数量较少,大量的无标签数据更易获得,为充分利用无标签数据,基于半监督自训练模型提升学习器的性能与适应性。实验结果表明,半监督自训练模型在一定程度上提升了监督模型的性能。本文的研究中提出的引文重要性自动化分类方法对破除唯数量等不公平的科研学术成果评价有一定的实践价值。此外,为进一步研究面向引文重要性的文献主题识别,本文将不同长度的引文信息引入cite-pLSA-LDA主题模型中,对计算语言学领域的文献主题进行识别,发现仅应用引文句单个句子的文献主题识别效果最好。使用余弦相似度和对称KL散度对基于引文重要性的文献主题相似度进行分析,发现重要引文相比于不重要引文与施引文献的主题相似度更高,即引用链接的分配更倾向于重要程度更高的引文。本文构建兼顾引文的主题模型,并基于引文重要性对文献主题的相似度进行分析,为更好地识别文献主题提供了新的研究思路。
其他文献
中温氧化镁基二氧化碳吸附材料在吸附增强型产氢反应过程中具有重要应用,不但能提高燃料的转化率、降低整个工艺的能耗,还能捕集CO2,避免其排放到大气中且为后续CO2存储和转化提供保障。本文选用不同种类及配比的熔融盐对具有特殊形貌的氧化镁基中温二氧化碳吸附材料进行改性,系统研究熔融盐改性对氧化镁CO2吸附容量及吸-脱附循环稳定性的影响规律;构建出吸附性能更高、热稳定性和循环再生性更强的熔融盐改性氧化镁基
学位
太行山东麓是中华文明重要的发源地,河北省石家庄市井陉地区(含井陉矿区)坐落于太行山中段,是全国首批千年古县,自从秦置地区以来,地名从未改变。井陉地区也是全国首个“中国传统村落保护区”,其境内文物古迹众多,文化底蕴深厚,现存千年以上村落73个,500年以上村落147个,具有鲜明的北方地域特色。因井陉地区全域属山区,境内地形地势复杂,气候条件也使得旱涝灾害频发。当地村落在营建过程中需要不断适应自然,利
学位
本文旨在研究不同单株植物落叶前后的减噪特性及其影响因子。通过测量植物落叶前后对不同频段、不同声压级、不同距离噪音的衰减效果,探究每种植物的减噪特性。然后深入量化单株植物的形态结构特征,将其与减噪特性进行相关性分析,探究植物自身形态结构对其减噪特性的影响。通过对植物落叶前后的减噪特性及其影响因子的研究,为园林中减噪植物的选择和应用提供一些科学依据。本研究通过对4种落叶灌木:海州常山(Cleroden
随着全球气候变化以及城市化进程的加快,全球范围内的洪涝灾害在频率和强度上都逐年上升。以往城市的防洪思想主要以抵御为主,建设了大量工程型防洪基础设施。但这些硬质堤坝破坏了周边地区的生态环境,已经无法满足新型城市的可持续发展需求,所以韧性承洪理念开始被引入城市建设中。滨水开放空间作为水陆交汇区不但肩负着联系整个地块生态系统的职责,还承载着休闲娱乐、文化科普、经济发展等功能,对于城市生态、居民生活、防洪
蜡梅(Chimonanthus praecox),寒冬绽放,花香清雅,具有较高的观赏价值、经济价值与文化等价值。鄢陵作为蜡梅栽培品种的主产区,有着悠久的栽培历史,丰富的品种资源,享有“鄢陵蜡梅冠天下”的美誉。本研究在全面调查鄢陵地区蜡梅品种资源的基础上,首先利用层次分析法对该区域蜡梅品种资源进行园艺观赏的综合性评价;而后以调查记载的蜡梅品种资源为供试材料,利用表型性状特征与SSR分子标记技术,分析
学位
随着城市化进程与传统排水基础设施的矛盾逐渐显著,如何将传统固化堤防的防洪形式转变为以水为友的雨洪适应性景观设计成为业内学者越来越关注的领域和方向。本文的研究聚焦有关城市雨洪管理的社会热点问题,以城市公园为研究对象,探索雨洪管理、绿色基础设施和景观设计的结合手法,使城市公园在发挥游憩、生态、美学功能的同时,能够一定程度上缓解区域的行洪压力,从而保证城市的稳健发展。本研究首先从全球气候趋势、城市化背景
随着城市的快速扩张,人的活动对河流产生的影响愈来愈大,许多河流的生态系统遭到了干扰,湿地景观逐渐消失,社会发展受到严重制约。如何建设更加符合自然生态规律的河流景观,满足市民休闲娱乐需求的同时保持湿地生态系统的平衡,是当前以及未来河流景观建设中的重点研究内容。论文运用文献研究、案例分析、归纳总结、实地调研、设计实践等方法对近自然理念的相关概念、理论基础、研究现状及河流湿地公园的相关概念、类型、结构、