基于TF算法的英文科技文献关键词提取方法研究

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:charse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着学术交流的国际化水平越来越高,如何使我国读者在英文素养不高的基础上对大量的英文科技文献进行有效阅读,并且迅速获取英文文献的信息,已经成为我国学者研究的一个重要课题,关键词挖掘提取技术可以很好的将英文文献中的信息进行挖掘和提取,是一种解决我国学者对英文科技文献需求困境的可行途径。本文对英文科技文献文本关键词采用统计方法、机器学习相结合的方法进行挖掘提取,通过现有的tf-idf算法和位置权重相结合的方法实现英文科技文献关键词的提取,在提取的过程中文本的预处理、过滤词库的建立和语料库的选择是影响关键词提取技术的重要因素。本文的主要内容如下:1.建立过滤词库:通过统计对比的方式将英文科技文献中具有共性的、无实际意义的、特殊的单词提取出来形成过滤词库。2.确定候选关键词位置及其权重:将候选关键词位置进行定义和区分,并且采用统计和概率的方法分别确定文章标题、文章章节标题和正文的三类位置权重。3.提出并详细介绍P-TF-IDF算法的原理和具体步骤。通过实验对比分析P-TF-IDF算法和TF-IDF算法的不同,实验表明P-TF-IDF算法不仅能够考虑到候选关键词词频的重要性,也能够将候选关键词位置的权重考虑进来,在提取关键词的精确度上相对仅仅依靠词频的TF-IDF算法有明显的改善。
其他文献
大绒鼠(Eothenomys miletus)为横断山区的固有种.在冷驯化((5±0.5)℃;光照:12L:12D)过程中,大绒鼠体重降低,非颤抖性产热(Non-shivering thermogensis,NST)随冷驯化时间延长而显著
目的:探析醒脑静合用尼莫地平对颅脑损伤患者的治疗作用。方法:分87例颅脑损伤患者为2组,对照组予常规治疗,实验组加用醒脑静联用尼莫地平治疗,比较两组疗效。结果:治疗后实验组患
目的探讨重症肺炎与电解质关系,以指导临床工作。方法按照中华医学会呼吸病学分会2006年的诊断标准,回顾性分析我院2010年1月至2010年12月收治的44例成人重症肺炎患者的临床
本文结合工作实践,分析了我馆电子阅览室使用中常出现的问题,并探索出一套行之有效的处理及维护方法。
利用最大气泡压力法测定表面张力 ,研究不同种类、不同浓度的表面活性剂对叶面肥料润湿性能的影响 ,并进行经济分析。