基于多特征的中文语义关键词提取方法的研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:zhgjdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展促使网络数据呈现几何式增长,导致数据量越来愈大,对文本信息有效的检索和利用也越来越困难。面对海量的信息,尤其是面对爆炸式增长的文本信息,高效的从海量文本中捕获到有用的信息,已经成为当前亟需解决的问题。为了解决这一问题,需要从文本中提取能够反映文本主题的中心词,这些词被称为关键词。关键词很好的体现了作者的思想以及文章的主题,能够使读者快速的了解一篇文章的主要内容,因此拥有一种熟练的自动关键词提取方法有着非常重要的研究意义。关键词作为文本核心内容地体现,不仅要反映词语地的重要性,还要能够反映文本与主题之间的相关性。而现有的针对关键词主题相关性的研究较少,而且多集中于对词语的语言概率模型或基于词典的研究,无法挖掘出词语的隐式语义特征。此外,在现实世界中大多数文本都没有提供标注关键词。如果采取人工标注的方法,不仅效率低下、费时费力,而且人的主观意识对标注结果影响比较大,所以手动分配关键词是一项非常耗时且繁琐的任务。综合以上因素,本文主要针对关键词的主题相关性以及标注语料较少的问题展开了研究,研究的主要内容如下:(1)本文提出了一种新的计算词语与文本主题之间相关性的方法。算法首先对文本进行预处理得到候选关键词序列,并结合领域知识对文本语料数据进行训练得到词向量列表,然后根据词向量列表得到文本的词向量序列,对单文本中的词向量进行聚类得到文本的聚类中心,最后计算各个候选关键词与聚类中心的相似度,作为词语与文本主题之间的语义相关性。(2)本文提出了一种融合语义特征的关键词提取方法,算法研究的重点在于对文本中候选关键词的特征提取。本文在前人研究的基础上分别从词频、长度、位置、语言信息等四个方面提取了包括描述词语与文本主题的相似度在内16个特征,以此作为分类模型的样本数据训练关键词分类模型。实验结果表明,融合语义特征的关键词提取方法较传统的基于术语频率逆文档频率(Term Frequency Inverse Document Frequency,TFIDF)方法,准确率提升了16.2%,F-Score提升了20.5%。提取的关键词不仅能够反映词语的重要程度,而且还反映词语的主题相关性。(3)本文将融合语义特征的关键词提取方法与半监督学习方法相结合,提出了一种改进的基于半监督的关键词提取方法。算法改进了初始训练样本选择的方法,通过交叉验证的方法提取较高置信度的训练样本,从而达到提升模型准确率的目的。实验表明,在实验数据一定的情况下,基于有监督的算法仅能从有标注样本中学习规律,而基于半监督学习的算法不仅能学习到有标注样本的规律还可以进一步挖掘出无标注样本的内在规律。
其他文献
近年来,有机电致发光器件(OLED)由于具有自发光、响应速度快、驱动电压低、可以实现柔性显示等优点而被广泛应用在显示和照明领域。然而传统OLED使用的有机材料玻璃化温度低,对空气中的水氧敏感,导致器件的稳定性较差,阻碍了OLED在实际应用中的进一步发展。本论文采用在空气中具有高稳定性的无机金属氧化物作为载流子传输材料来提高器件的稳定性。作为电子传输材料的n型无机金属氧化物需要通过旋涂工艺形成薄膜,
三维有序大孔导电颗粒(Three-dimensionally ordered macroporous,3DOM)由于具有相互贯通的三维有序结构、孔隙率高、比表面积大、缺陷少、导电性优良、孔壁易于化学改性等独
鸡传染性贫血病毒(Chicken infectious anemia virus,CIAV)是一种临床上能够引起雏鸡再生障碍性贫血和全身淋巴组织萎缩为主要特征的鸡传染性贫血(Chicken infectious anemia
光流控技术是一种无接触、高精度的微流体控制方法,其在生物、医疗、化学等方面有广泛的应用前景。金纳米结构在激光照射下产生等离激元共振现象,伴随着局域加热及局域场增强
目的回顾性研究弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者18F-FDG PET脑数据,探讨DLBCL患者化疗后不同脑区葡萄糖代谢变化规律,同时分析其葡萄糖代谢改变与
氮氧化物是主要的大气污染物之一,严重危害生态环境与人体健康。选择性催化还原(SCR)技术是现阶段对固定源烟气中氮氧化物脱除最有效的方法之一。目前高温SCR技术已趋于成熟,但
随着社会的发展及人们物质生活水平的提高,商业综合体建筑近年来发展迅猛,越来越受到人们的欢迎,成为人们日常休闲、购物、娱乐的重要场所。湿热地区由于气候环境的特殊性,夏
近年来,微纳米马达由于其在药物运输、生物感应和环境治理等方面的广泛应用已经引起了学术界越来越多的关注。作为微纳米马达中重要的一类分支,光驱动微马达可以将清洁的光能
线虫是后生动物中种类丰富的动物之一。由于线虫的结构简单,一些线虫已被用作神经和进化研究的模型生物,如秀丽隐杆线虫。然而,在线虫类中,有一类感染动物的线虫,又称寄生线
众所周知,海洋是一种复杂的腐蚀环境,海水本身是一种强的腐蚀介质,同时波、浪又会对金属构件产生冲击,加上海洋微生物、附着生物等多种因素耦合,对腐蚀进程产生直接或间接的