主题模型的短文本聚类研究与应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:skyfox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代中的网络平台产生了样本量巨大反映情感信息的短文本,获取和理解短文本中所蕴涵的信息是非常有意义的。但由于文本数据的结构特征和短文本包含词量较低,使得网络短文本聚类面临以下主要问题:1.基于单词向量空间模型获取的词向量维度等于文本数据词表的长度,使得词向量维度过高而带来的短文本的高维问题;2.网络短文本中包含的关键词的频数较小,关键词的词频和关键词之间的共现频率等语义信息不能得到充分挖掘导致的短文本的信息特征稀疏性问题;3.网络短文本表述简洁,存在大量不规范用语,在歧义性问题的基础上还存在不规范性问题,导致传统的文本预处理和文本表示方法不能准确的表征网络短文本的语义信息而带来的语境依赖性问题。同时,文本聚类任务本身还存在聚类簇的数目难于确定、文本数据中的聚类簇无法自动识别和文本聚类结果中簇的语义信息难于解释的问题。为此,本研究针对网络短文本性质所带来的问题,提出不同的文档向量生成模型。首先通过引入主题模型,解决网络短文本的高维问题。并在针对短文本的狄利克雷多项式混合模型的基础上,研究基于Gibbs抽样和变分推断的主题潜变量的后验分布求解方法。为了进一步解决网络短文本的信息特征稀疏性问题和语境依赖性问题,引入动态词向量预训练模型。对于通过预训练模型得到的深度文档向量,首先通过白化预处理转换为符合正态分布的文档向量。并与通过主题模型得到的主题文档向量进行拼接,利用变分自编码器生成符合正态分布的文档向量,实现短文本文档向量的构建。对于文本聚类问题,首先利用一致的流形逼近和投影UMAP实现高维词向量的降维,然后使用HDBSCAN对降维后的文档向量进行聚类,最后使用改进后的TF-DIF方法从聚类簇中提取文档的主题。针对文本分类任务,使用基于主题模型和词移距离的分层主题Wasserstein距离来计算文档之间的距离,并结合KNN分类算法进行文本分类。最后分别通过数值模拟、实验验证和实例分析来证明文章提出的短文本的文档向量生成方法和相应的文本聚类模型和文本分类模型是有效的。
其他文献
王独清是中国现代文学史上一位重要而特殊的诗人。他曾在诗坛上声名显赫,获得了“创造社诗人中仅次于郭沫若”那样重要的场域位置,但后期因为托派问题而饱受争议,一度沉寂。直至新时期的到来,他和他的文学作品才得以重见光明。目前学界关于王独清革命诗歌的研究处于起步阶段,还有许多问题尚待挖掘。本论文主要采用了文献研究、文本分析和实证主义等研究方法,梳理了王独清转向革命的历程,探讨了其革命诗歌的思想内容、意象,辨
学位
“文革文学”是百年中国文学不可分割的历史整体中的一个特殊部分,关涉着二十世纪中国政治、思想、文化等诸多重要方面。“文革文学”中存在大量疾病医疗书写,这为“文革文学”研究提供了新的角度和方法。一方面,“疾病-治疗”的模式在“文革文学”中被赋予了丰富的政治隐喻,具体体现为:其一,疾病隐喻,由因何生病、谁生病、生病之后得到怎样对待等问题引发,可归纳为阶级迫害的见证物、英雄主体的勋章、“封资修”的残留物和
学位
共价有机框架材料(covalent organic framework materials,COFs),是一种新兴的多孔晶体聚合物,由轻元素(例如B,C,Si,N和O)通过强共价键(例如B-O,C-N,C=N和C=C-N)连接有机单元而构成,采用动态可逆共价化学构建并能够将有机单元精确地整合成周期性柱状π阵列和有序孔道。与传统材料相比,COFs材料具有一些独特的性质,如大表面积、可预先设计的孔几何
学位
随着人们生活质量的提高,对于饮食健康(尤其土特产方面)的关注度也不断提升。我国地大物博,各个地区都有许多具有不同特色的土特产。然而,当前人们通过搜索引擎搜索某个地区的土特产信息时得到的重复内容较多,且往往查询到的只有该地区较为有名的一小部分。很多品质好、功效高的土特产由于宣传力度不够或一些其他原因却鲜为人知,从而导致严重的滞销。本文使用自然语言处理和知识图谱技术构建关于土特产功效与产地等信息的土特
学位
植物种群的遗传分化及分布格局常受地质事件和气候变化等历史因素的影响。作为北半球温带植物区系中物种多样性最高的区域,中国-日本植物区系(尤其是中国西南山地生物多样性热点地区)植物的种群分化和分布格局普遍受到青藏高原隆起、第四纪冰期气候震荡或高度异质的地形及生境的影响,由此导致多种谱系地理间断模式。绣球蔷薇(Rosa glomerata Rehder&E.H.Wilson)隶属于蔷薇科(Rosacea
学位
本文以教育科学出版社版和江苏教育出版社版两版小学科学教材为语料,系统、深入地分析操作语体的语言机制,顺应了篇章研究的发展趋势,将篇章研究的具体问题落实到具体语体上,并希冀为学科教育和语体研究等相关领域理论提供实证支持。本文理论上的推进在于:1.给出操作语体篇章延续性的计算方法;2.首次提出了科学教材操作语体篇章中形式化的模版,发现操作语体篇章有必有构件和可选构件,并对可选构件进行细分类,区分了可选
学位
物种丰富度的空间格局并不是沿纬度和海拔梯度均匀分布的,生物多样性的地理梯度一直令生物地理学家和生态学家着迷。山地拥有世界上约87%的物种,却仅占陆地面积(不包括南极洲)的25%左右,并且大量物种仅限于(特有)山区分布(Rahbek et al.,2019),全球大部分山地区域被视为全球生物多样性热点区域。云南地势北高南低,山地面积占全省94%,本研究以云南北部的高黎贡山北段、梅里雪山、玉龙雪山、轿
学位
物种界限(Species Boundary)限制了自然界中不同物种间的基因流和杂交渐渗,维持物种独立性。植物类群中,普遍存在的进化现象和进化方式——杂交(Hybridization)和基因渐渗(Genetic Introgression),它们对物种的适应性进化、遗传变异、物种分化和生物多样性形成有重要意义。物种间杂交可能会导致亲本物种发生相互融合,或产生新物种,或亲本物种维持相互稳定;然而,近缘
学位
《爱的痛苦》是华裔美国作家雷祖威(David Wong Louie)于1991年出版的第一部短篇小说集,共收录了 11篇故事,有的故事涉及到新一代华裔群体,还有一些涉及的则是族裔身份模糊的美国人。许多人认为,这部小说与之前的美国华裔作家作品相比弱化了族裔性,但笔者仍发现小说体现出了华裔身份的特殊性。与此同时,作品展开了对于其他主题的叙述,如对美国人的生存状态的关注,这也是此前的华裔美国文学作品所缺
学位
UiO-66-NH2和MIL-101-NH2(Fe)已广泛用于去除水体中的磷酸盐和As(Ⅴ),但UiO-66-NH2选择性差,去除效率低,而MIL-101-NH2(Fe)稳定性较差,选择性和去除效率也不能满足实际的需求。为了增加此类MOFs材料的吸附性能,增强其实用性,本文通过了稀土元素钕(Nd)掺杂到UiO-66-NH2和MIL-101-NH2(Fe)中,制备了Nd-UiO-66-NH2和Nd-
学位