中文文章与主题关键短语提取方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:yifanvip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,日益增多的网民所产生的文本信息有待及时有效的处理。因此,高效的文本挖掘技术就成为关键性研究课题,其中,文章关键短语与主题关键短语提取技术是文本挖掘的基础研究内容,它们共同影响着文本挖掘在各个领域中的应用质量。目前,文章关键短语与主题关键短语提取技术被广泛应用于许多领域,如:关键词搜索引擎、语音识别、文本情感分析和用户商品智能推荐等。本文的主要工作是基于统计、自然语言处理和机器学习,在原有三种经典算法的基础上提出了改进后的三个关键短语提取方案,本文的具体研究内容和研究结果如下:(1)提出了一种基于TF-IDF与多特征约束的中文关键短语提取方法。首先,分析了TF-IDF统计量设定的局限性,根据中文词语特点加入更多约束条件完成多特征约束,然后,加入了顺序组合技术来弥补TF-IDF无法提取短语的缺陷,在此基础上融入中文分词系统与改进的短语排序技术共同构成该方案主体,并在大量实验中完成算法具体参数的定值。最后,给出了该方案与国内外经典相关算法的对比实验结果,从量化的数值上可以看出本方案的关键短语挖掘效果相对于对比算法有显著的提升。(2)针对经典的关键短语提取算法所提取关键短语准确率低、歧义性强、涵盖信息量少等问题提出了一种改进后的文章关键短语提取算法。首先,在英文关键短语提取算法TAKE的启发下,通过加入中文分词系统来改善原有算法在中文分词能力上的不足,然后,融入基于多领域特异性的新词识别技术,提升了最终的分词效果,并在此基础上增加了词语过滤和特征计算等技术融合后形成了一种改进的TAKE算法。最后,通过与多种传统关键短语提取算法的对比,实验表明:本方案在提取的精确率、召回率和F值指标的量化结果中相比于传统算法有比较明显的提升。(3)提出了一种主题关键短语提取算法。首先,针对原有算法Kert中文分词效果不佳,引入新的统计量改善分词效果,并依据Kert中FP-Growth所产生短语语序歧义的问题提出了约束合并算法,然后,改进原有排序算法完成算法整体框架。最后,通过对比实验表明本方案针对主题关键短语挖掘工作相比于对比算法有更加良好的表现。
其他文献
随着大数据时代的降临,数字媒体以其领先的科技优势,对传统媒体发起了剧烈的冲击,这种冲击不仅表现在技术上,还表现实在交互设计上,文章主要对这两个方面进行具体阐述,并提出
<正>敖鲁古雅鄂温克人是鄂温克民族的一个分支,他们生活在大兴安岭北麓敖鲁古雅河畔。其所在地根河市郊,位于内蒙古自治区东北部,是中国纬度最高、最北部的新兴林区城市。解
法国一直以精良、优雅的工艺品闻名于世,极善于将人的感官享受发展成为精湛的艺术。与中国相似,法国在欧洲诸国中有长久的历史,有极讲究奢侈生活的上层阶层;又与中国不同的是
期刊
相对于陆上油田而言,海上油田在高含水开发中后期增产挖潜研究中,对剩余油描述精度要求更高、面临的难度更大。以海上A油田为例,根据油藏地质与开发特点,通过以Q-Marine地震
<正> 1949年8月28日,宋庆龄应毛泽东、周恩来的邀请,在邓颖超、廖梦醒的陪同下,由上海到达北平,参加中国人民政治协商会议,并在这次会议上当选为中央人民政府副主席。此后,她
会议
实体书店该如何先生存后发展?实体书店、图书电商及资深出版人纷纷提出了自己的看法。“书店掌握定价权”、“创新营销模式”、“与移动互联网联姻”、“建立实体书店联盟”、
期刊
随着云南省经济的发展,具有高原特色的核桃产业逐渐发展起来,并受到各级政府的重视,但其发展中也存在着问题。本文针对云南省核桃产业发展中出现的一些问题提出了对策,希望能
本文以青岛华仁药业股份有限公司(上市公司)为主体,根据该公司2009年、2010年、2011年、2012年这四个年度的财务报表,结合所在行业环境和公司发展战略,利用杜邦分析法对企业
近些年蓝藻水华的大规模爆发是水产养殖业面临的一个重要问题。文章从蓝藻水华形成的原因、蓝藻水华对水产养殖业的危害、蓝藻水华的防治方法等方面进行了论述,并比较了不同
对《循证针灸临床实践指南:膝骨关节炎》(以下简称《指南》)的制定工作进行回顾与总结。指出由于中医研究的特殊性以及针刺临床实践的复杂性,在《指南》制定过程中遇到许多问