论文部分内容阅读
随着学术交流的国际化水平越来越高,如何使我国读者在英文素养不高的基础上对大量的英文科技文献进行有效阅读,并且迅速获取英文文献的信息,已经成为我国学者研究的一个重要课题,关键词挖掘提取技术可以很好的将英文文献中的信息进行挖掘和提取,是一种解决我国学者对英文科技文献需求困境的可行途径。本文对英文科技文献文本关键词采用统计方法、机器学习相结合的方法进行挖掘提取,通过现有的tf-idf算法和位置权重相结合的方法实现英文科技文献关键词的提取,在提取的过程中文本的预处理、过滤词库的建立和语料库的选择是影响关键词提取技术的重要因素。本文的主要内容如下:1.建立过滤词库:通过统计对比的方式将英文科技文献中具有共性的、无实际意义的、特殊的单词提取出来形成过滤词库。2.确定候选关键词位置及其权重:将候选关键词位置进行定义和区分,并且采用统计和概率的方法分别确定文章标题、文章章节标题和正文的三类位置权重。3.提出并详细介绍P-TF-IDF算法的原理和具体步骤。通过实验对比分析P-TF-IDF算法和TF-IDF算法的不同,实验表明P-TF-IDF算法不仅能够考虑到候选关键词词频的重要性,也能够将候选关键词位置的权重考虑进来,在提取关键词的精确度上相对仅仅依靠词频的TF-IDF算法有明显的改善。