基于隐性主题模型和新词发现的关键词抽取研究

来源 :北京邮电大学 | 被引量 : 11次 | 上传用户:weistiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,信息呈爆炸式增长,如何从海量数据中快速地查找出所需信息显得尤为重要。关键词作为快速把握文章主题的一种重要方式,为用户进行快速的信息筛选提供了重要依据。关键词抽取技术已经被广泛地应用于信息检索、文本分类和内容推荐等领域。传统的关键词抽取方法,只统计词语的外部特征信息,而忽略了文章主题以及内部结构对关键词抽取性能的影响,导致抽取的关键词主题过于单一,甚至与文章的主题不相关。另外分词的错误也会导致抽取的关键词可读性不强。针对这些问题,本文提出了基于隐性主题模型与新词发现的关键词抽取方法,具体研究工作如下:提出了基于隐性主题模型的关键词抽取方法,通过结合文章主题信息和内部结构信息来进行关键词的抽取。该方法一方面通过主题模型构建文章主题,将文章中的词语都映射到主题空间中;另一方面,为了得到文章的内部结构,通过使用共现窗口的方法来创建文档图,最终结合PageRank模型与小世界网络模型来进行关键词抽取。实验证明,该方法能够有效地利用文章主题信息与结构信息,相比基于TFIDF的方法,该方法抽取出来的关键词对文章主题的相关度和覆盖度均有提高。提出了基于新词发现的关键词抽取方法,通过结合新词发现的方法来提高关键词的可读性。分词作为关键词抽取的初始环节,其性能将直接影响着关键词抽取的效果。分词系统最主要的问题就是新词识别,本文使用统计方法从语料中发现新词,避免这些新词被分词系统切错。同时也可以通过新词发现的方法对词语进行合并,将其组合为表达能力更强的短语,以此来提高抽取关键词的可读性。通过实验证明,该方法能够有效地提高系统的性能。
其他文献
鲁迅说《红楼梦》,"单是命意,就因读者的眼光而有种种:经学家看见《易》,道学家看见淫,才子看见缠绵,革命家看见排满,流言家看见宫闱秘事……"一本好书彷如瑰丽的殿堂,充满力
[目的]探讨重症监护室(ICU)护士职业生活质量现状及其影响因素。[方法]采用一般资料调查表、护理职业生活质量量表、特质应对方式量表、大五人格测试量表对广东省6所三级综合
幼儿生命教育是指从对生命本质的探求开始,让幼儿认识和尊重生命,肯定自我价值,培养一颗感恩的心,勇敢地面对挑战,努力关注并照顾自己、他人和世界的一种教育。生命教育对于
<正>职业暴露严重影响医务人员的身心健康[1]。传染病医院医务人员由于职业的特殊性,可能发生职业暴露后感染的几率更高[2]。目前,少有传染病医院职业暴露的全面、动态研究资
期刊
<正>携程经历了以产品为王到以体验为王的发展过程,原来是经营产品,而现在是经营人心。"携程旅行网作为专注于旅游出行的互联网品牌,经历了以产品为王到现在以体验为王的发展
"卫星城"的快速发展,给当地社会经济发展带来诸多好处的同时,也出现本地居民与外地人的融合有障碍、社会管理体制发展滞后等问题。文章建议:加快推进"村改居"工作;建立形式多
上市公司的股价信息含量是测量资本市场效率的重要指标之一,已有研究发现上市公司具有足够的动机和操作空间干预信息披露,其中主动提高信息披露水平的主要动机是对外融资。近
罗振玉是晚清时期的著名学者,一生编著了百余部学术专著。文章总结分析了罗振玉的图书编撰成就、编撰特点及其图书编撰事业成功的原因。
在我国,心脑血管病已成为首位的致死和致残原因,而血脂异常是心脑血管疾病的重要危险因素。流行病学调查发现,我国人群血清脂质水平和异常率有明显的地区差异。本文旨在调查浙江