【摘 要】
:
关键词可以高效地用于检索、理解文本内容,使用户快速获取文本的主要思想。现有的关键词提取技术提取的关键词质量尚不理想,这不利于后续任务的进行。为了提升关键词提取的准确性,本文主要从图方法和神经网络方法两个方面,对关键词提取方法进行了研究与改进。针对多数关键词提取方法只使用了少量特征的问题,本文提出了一种改进TextRank的多特征关键词提取方法。该方法在TextRank算法的基础上,融合了多个特征。
论文部分内容阅读
关键词可以高效地用于检索、理解文本内容,使用户快速获取文本的主要思想。现有的关键词提取技术提取的关键词质量尚不理想,这不利于后续任务的进行。为了提升关键词提取的准确性,本文主要从图方法和神经网络方法两个方面,对关键词提取方法进行了研究与改进。针对多数关键词提取方法只使用了少量特征的问题,本文提出了一种改进TextRank的多特征关键词提取方法。该方法在TextRank算法的基础上,融合了多个特征。如果一个单词在越多的句子中出现,我们认为这个单词的重要性就越高,所以将计算目标单词所出现的句子总数作为一个特征融入TextRank中,同时使用词跨度、词位置倒数和来修改TextRank的转移概率,使用LDA主题信息修改重启概率,得到了一个改进的TextRank关键词提取算法。我们在SemEval2010、KDD及WWW三个数据集上进行了对比实验,实验结果表明,改进算法在准确率、召回率、F1-score上,比基线算法TF-TDF、TextRank、SingleRank及TopicRank有了明显的提高。改进TextRank的多特征关键词提取方法只是基于图模型的方法,本文的另外一项研究是将图模型和神经网络方法结合,提出了一个结合BiGRU和PositionRank的关键词提取方法。通过使用BiGRU网络学习文档中词的前向和后向的上下文信息,使用图方法PositionRank算法学习词在文档中的每一个位置特征,将这两部分提取到的关键词进行合并,选择得分最高的词作为最终关键词。我们同样在SemEval2010、KDD及WWW三个数据集上进行了对比实验,实验结果表明,本文方法的关键词提取质量相较基于BiLSTM和PositionRank的基线方法更高,且图模型和神经网络结合方法的关键词提取质量也比只用图方法要高。
其他文献
目的:运用中医传承辅助平台对申春悌教授治疗风咳证的临床用药进行分析总结,探究申教授对风咳证病因病机的认识、治疗风咳证的组方思路和临床用药特点。方法:将申教授治疗风
目的:探讨原发性肝癌切除术后并发胸腔积液的相关影响因素,并制定合适的防治措施指导临床工作。方法:收集173例2011年1月至2019年1月于暨南大学附属第一医院肝胆外科行肝切除
中国文化博大精深,中国元素也是丰富而传奇。中国元素包括能够标识出中国特色的各种元素,例如中国传统建筑、书法、绘画、服装、物品、植物、动物(如,大熊猫)等,都可以称为中国
通过对全省世行贷款NAP和FRDPP项目林分抚育间伐的典型抽样和全面调查,分析了项目林分无法开展正常抚育间伐的成因,并提出了今后合理开展林分抚育间伐的具体建议.
介绍一种复合型外墙保温板的组成材料、构造形式以及成型工艺。通过实验和实际测量方法研究外墙保温板的保温性能、耐久性能和装饰效果,并与传统外墙做法进行造价分析比较。
2015年,江苏响水县供电公司六套供电所取得了95598非抢修类工单全年零工单的好成绩,响水县农村供电所仅此一家。六套供电所现有在职职工18名,肩负着六套中心社区15个行政村94
为强化数学应用意识,发展学生的创新能力,近年来,各地中考命题出现了经济类、设计类、信息类、环保类、建模类、学科综合类等众多新型应用题.本文探讨了中考中出现的几类新型
“复合型”特殊教育教师是指进行特殊教育教学的同时,能配合医院、机构等专业人士,对特殊学校内的儿童进行常规化康复训练的教师。随着社会对医教结合的重视,对“复合型”特殊教育教师需求的增加与普通特殊教育教师胜任力不足之间形成矛盾,阻碍了特殊教育事业发展的步伐。因此需要开展“复合型”特殊教育教师胜任力研究,对教师队伍建设过程中存在的问题提出合理化建议。本文共分两个研究,主要采用的研究方法有文献分析法、问卷