基于语义信息和高斯混和分布的主题增强算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:yang980060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本主题内容的提取在自然语言处理领域内是一个基础性的研究问题,它为人工智能的各种应用提供了相应基础。然而受传统挖掘技术的限制,智能化的准确提取文本内容还存在较大问题。特别是在过去的几年里,人们存储数据的能力不断提高,再加上互联网的日益普及,已经创建了大量的电子文本,这使得人工阅读甚至传统挖掘技术去适应这快速发展的信息社会已经显得不合时宜。因此研究一项能够快速且智能化提取文本内容的模型,有助于推动整个自然语言领域进行智能化转折。主题模型便是这样一项旨在通过分析文档获得连贯文档主题的智能模型。尽管统计表明,中国知网中与主题模型相关的研究以及下载和引用量与日俱增,并且其研究成果也已经衍生应用到了各个领域。但是,目前的主题模型依然存在以下困难需要克服:1.传统主题模型往往采用狄利克雷分布或者是多元高斯分布作为假设文档分布的先验条件,这一类的假设对模型性能的优化有限。2.以往的主题模型大多只考虑了词频而无法发现单词之间的语义关系或者利用基于西方语言学习的词嵌入方法来辅助主题模型在中文预料上进行建模从而导致模型性能不佳。为了解决以上弊端,本文的主要贡献如下:针对传统主题模型采用狄利克雷分布或者是多元高斯分布作为假设文档分布的先验条件问题,本研究中提出了一种基于高斯混合先验的主题模型,一种Wasserstein自动编码器[1]与高斯混合分布相结合的主题模型来解决上述问题。本文将模型名简化为GMTM(Gaussian Mixture Topic Model,GMTM)。在之后的研究中为了解决传统主题模型的另一弊端,在前面高斯混合分布为先验的基础上,本文提出了第二种模型WE-GMTM(Gaussian Mixture Topic Model With Word Embedding,WE-GMTM)。一种通过cw2vec模型学习中文词汇之间的语义,然后利用Bi-LSTM[2]进一步提取词汇上下文信息来辅助主题建模的方法。为了衡量模型是否能够很好地表示文本内容,本文的研究主要使用了两种经典的主题模型评价指标,它们是归一化逐点互信息(NPMI)以及基于滑动窗口的UCI两个指标对模型进行主题质量评估。在几个真实数据集上的实验发现,本文的模型在主题质量和性能指标方面皆能表现出更好的性能。
其他文献
人体姿态估计是近年来计算机视觉领域的主流研究内容,在人机交互、电影制作、监控安全和互联网领域有广阔的应用前景。当前人体姿态估计方法在困难任务中的表现仍不尽如人意,大多数方法使用图像的全局上下文信息来预测关键点,忽略了关键点之间的关联性信息,容易导致网络负迁移学习。其次,人体姿态估计作为一项基础性研究,缺少一套完善稳定的软件系统将其应用于后续研究中。针对以上问题,本文引入了信息论中的相关性理论,将关
学位
空间异质性是指因地理位置和时间的变化而引起的变量间关系或结构的变化,主要表现为时空非平稳性。城市用地扩张及其驱动因子表现为强烈的时空非平稳性,通过动态建模方式深入揭示这一特性,能帮助我们更好地理解城市变化的动态过程。分区建模可有效解决数据驱动的元胞自动机(Cellular Automata,CA)耦合模型中对用地转换规则的局部特征学习不充分的问题,以减小空间异质性对模拟结果的影响。针对城市群空间扩
学位
濒危动物监测是野生保护研究的重要手段之一,但常规的监测手段需要大量人工干预,不利于全时监测的开展。因此,发展智能化的濒危动物监测系统成为迫切需要,而构建高效的目标检测模型是其中的关键所在。然而,由于濒危动物数量和分布都有典型的稀疏性,导致濒危动物图像样本的极度匮乏。若直接采用稀疏样本进行训练,模型会出现严重的过拟合,难以正常工作。如何利用极少量濒危动物样本进行学习,就成为濒危动物智能监测需要关注的
学位
近年来,随着自然语言处理领域的快速发展,事件抽取作为自然语言处理领域非常重要的基线任务展现出了颇高的学术价值以及研究价值,因而吸引来了众多的国内外科研工作们的关注。目前大部分事件抽取相关研究是基于英文文本进行的,基于中文文本事件抽取的研究工作相对较少。事件抽取任务可分为句子级事件抽取与文档级事件抽取。句子级事件抽取相对比较容易,主要是因为句子级文本的长度相对较短,并且所描述的语义信息比较集中。对于
学位
传统回归任务是指使用一组输入变量来预测单个连续变量,而多目标回归旨在使用一组输入变量同时预测多个连续目标变量。尽管在多目标回归方面取得了很大进展,但仍然存在三个具有挑战性的问题,即如何建模输入特征和输出目标之间的潜在关系,如何探索输入间的潜在关系以及如何探索目标间的依赖关系。本文围绕这三个挑战性问题展开研究,提出了两种有效的多目标回归算法,主要研究内容如下:1.提出了一种学习本地局部实例关联的多目
学位
近几年,随着移动电子设备和智能手机的迅速普及,基于位置的社交网络(Location-based Social Network,LBSN)为基于位置的研究带来了大量用户签到数据,使位置预测领域取得重大突破。通过现有的预测模型可以预测出人们的出行模式、访问位置、某个特定地点的访问量和访问人员,以往难以做到的服务在如今都随着技术的进步和数据的丰富而变得易如反掌。道路规划、拥堵控制、广告投放和人流控制,这
学位
随着当下互联网硬件和软件的快速发展,大量的APP或者网页产生了大量的文本信息数据,人工处理这些文本信息的方式越来越难以胜任时代的发展。如何快速的从大量杂乱无序的文本中,提取出简短准确有用的信息,已成为当下急需研究的课题。近些年的研究成果之一就是自动文本摘要,使用计算机来处理这些文本信息。自动文本摘要是从大量相同主题的文本中提取出关键信息生成简短摘要的方法。人们可以快速的获取关键信息而无需阅读整个文
学位
稀疏网络编码中选取大量为零的编码系数,在原包子集中进行编码,可使信宿端产生一稀疏解码矩阵。为降低解码复杂度和传输延时,稀疏网络编码中可实现部分解码,即在解码整代原包前提下,通过收集部分编码包解码出原始数据。中继协作无线网络中引入稀疏网络编码技术可有效提高传输效率,进一步通过中继节点传输模式的调整,在传输开销有限的情况下最大化再生包占比率,提高解码概率。针对传统基于稀疏网络编码的传输方案,其后期信宿
学位
脑机接口(Brain Computer Interface,BCI)是一种通过神经活动识别人的意图并将电生理信号转换为设备控制命令的技术。基于脑电(Electroencephalography,EEG)的运动想象(Motor Imagery,MI)脑机接口在构建人脑与外部设备的通路中得到了广泛的应用。然而,由于EEG严重受到低信噪比和不可预测的模式变化的影响,基于MI的EEG信号的解码仍然是一项具
学位
心脏磁共振成像(cardiac magnetic resonance,CMR)主要用于心脏功能评估和心血管疾病诊断。通过心脏磁共振图像评估临床参数,包括射血分数、心室容积、脉搏输出量和心肌质量,它们被认为是黄金标准。应用计算机辅助诊断来解决这一问题已成为近年来的热点。以往的研究提出了很多基于传统特征的方法,随着卷积神经网络的发展,心脏磁共振图像中器官自动分割方法相对于传统特征提取方法在速度和准确率
学位