论文部分内容阅读
随着互联网技术的不断发展,日益增多的网民所产生的文本信息有待及时有效的处理。因此,高效的文本挖掘技术就成为关键性研究课题,其中,文章关键短语与主题关键短语提取技术是文本挖掘的基础研究内容,它们共同影响着文本挖掘在各个领域中的应用质量。目前,文章关键短语与主题关键短语提取技术被广泛应用于许多领域,如:关键词搜索引擎、语音识别、文本情感分析和用户商品智能推荐等。本文的主要工作是基于统计、自然语言处理和机器学习,在原有三种经典算法的基础上提出了改进后的三个关键短语提取方案,本文的具体研究内容和研究结果如下:(1)提出了一种基于TF-IDF与多特征约束的中文关键短语提取方法。首先,分析了TF-IDF统计量设定的局限性,根据中文词语特点加入更多约束条件完成多特征约束,然后,加入了顺序组合技术来弥补TF-IDF无法提取短语的缺陷,在此基础上融入中文分词系统与改进的短语排序技术共同构成该方案主体,并在大量实验中完成算法具体参数的定值。最后,给出了该方案与国内外经典相关算法的对比实验结果,从量化的数值上可以看出本方案的关键短语挖掘效果相对于对比算法有显著的提升。(2)针对经典的关键短语提取算法所提取关键短语准确率低、歧义性强、涵盖信息量少等问题提出了一种改进后的文章关键短语提取算法。首先,在英文关键短语提取算法TAKE的启发下,通过加入中文分词系统来改善原有算法在中文分词能力上的不足,然后,融入基于多领域特异性的新词识别技术,提升了最终的分词效果,并在此基础上增加了词语过滤和特征计算等技术融合后形成了一种改进的TAKE算法。最后,通过与多种传统关键短语提取算法的对比,实验表明:本方案在提取的精确率、召回率和F值指标的量化结果中相比于传统算法有比较明显的提升。(3)提出了一种主题关键短语提取算法。首先,针对原有算法Kert中文分词效果不佳,引入新的统计量改善分词效果,并依据Kert中FP-Growth所产生短语语序歧义的问题提出了约束合并算法,然后,改进原有排序算法完成算法整体框架。最后,通过对比实验表明本方案针对主题关键短语挖掘工作相比于对比算法有更加良好的表现。