基于词嵌入的文本主题建模研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:Gsea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet网络拥有海量的各类电子文本内容,而且还在快速增长,其中隐含大量有价值的信息。通过主题建模从大量文本内发现文本的主题语义,人们能更好地管理与分析文本数据,从而挖掘出感兴趣或者有意义的信息,这具有重要的理论研究价值和实际应用价值,是文本数据管理领域的研究热点。主题模型主要用于从文本集中挖掘表示语义主旨的主题词集,通过主题词集,能够快速地了解文本集的主要内容;同时将文本投影到该主题词集后,能够获得每个文本的语义信息。由于主题模型采用无监督的学习方式,它在文本数据管理中应用极广,已经在信息检索、文本分类、情感分析、文本自动摘要、舆情分析、热点话题发现和追踪等文本管理任务得到应用。传统的概率主题模型多假设文本的生成符合词袋模型,词袋模型仅考虑文本内单词的频率信息,没有考虑词间的序列等关系。这样简化了模型的复杂度,但容易造成模型只注重于获取文本中词的共现情况,缺少词的相似性和序列关系等语义信息,会导致模型的效果不理想。早期的主题模型评价基于困惑度值,它的评价结果与人们对主题的理解并不一致,由此研究者提出了主题一致性评价标准,主题词的一致性更能够体现主题结果中词序列的语义关系。词嵌入含有丰富的词语义信息,近年来,将词嵌入应用于主题挖掘已是主题模型研究的重要方向。本文先研究词嵌入的性质,改进词嵌入训练中常用的负采样方法,提高词嵌入的语义质量,然后基于词嵌入相似和相关特点研究主题建模,旨在通过词嵌入提高文本主题的挖掘效果。本文主要研究内容及成果如下:(1)根据词的点互信息(Point-wise Mutual Information,PMI)分析词嵌入的相似性,改进负样本生成方法。多数词嵌入模型会为每个词产生两个词嵌入向量,它们作为输入或输出目标在模型学习时表示了词的不同功能,词的PMI信息能够表示词的输入、输出嵌入向量间关系,从而帮助分析词嵌入具有相似、相关性原因。Skip-Gram和CBOW词嵌入模型为提高模型训练速度会使用层级Softmax结构或负采样方法求解模型,获得词嵌入的近似解。负采样方法是一种更高效的模型训练方案,但是原始采样方法存在所有词共享唯一的采样表信息,负样本会主要集中于高频词等问题。根据词的PMI正、负值信息,为每个词构建不同的负采样词表,提高负样本采样的针对性,并使用提前预采样方法减少内存的占有率。实验结果显示,常见词嵌入模型相同词的输入、输出嵌入之间具有较大的相似性,且基于PMI的负样本生成方法能够提高词嵌入的语义质量。(2)使用词嵌入的相似性,获得关联词集,构建层状结构规则项,实现一般层状稀疏主题编码(General Hierarchical Sparse Topic Coding,GHSTC)和稀疏层状主题编码(Sparse Hierarchical Sparse Topic Coding,SHSTC)。主题模型参数繁多、关系紧密,使模型的求解非常困难,而且主题模型缺少词关联信息。通过取消词的相互独立性假设,约束词间具有的联系,是常见地提高主题质量方法。稀疏主题编码简化了模型参数的表示方法,但是词间还缺少关联信息。GHSTC和SHSTC主题编码策略通过词嵌入获得具有相关语义的词集,关联词集内的词编码表示为层状结构稀疏规则项,作用于主题编码模型,这样通过词编码的稀疏性和关联性,既能使主题词项分布更稀疏,也能提高主题词间的关联性,从而使文本语义表示更准确。实验结果显示,GHSTC和SHSTC主题编码能提高文本主题的建模效果。(3)使用预训练词嵌入,应用神经网络结构,构建SGWE-TM(Skip-Gram structure and Word Embedding-Topic Model)主题模型。词的嵌入式表示含有丰富的词语义信息,且神经网络结构非常适合词嵌入的使用,但目前多数应用神经网络方式的主题模型没有充分使用词嵌入的特性。分析发现常见模型的词嵌入学习类似于分解词的点互信息矩阵,而主题模型的一致性评价方法也使用词的点互信息,二者存在紧密的联系。SGWE-TM模型通过引入Softmax函数关联主题嵌入和词嵌入,使用Skip-Gram结构描述中心词的主题和相邻词之间的生成关系,从而直接将词嵌入的相似、相关特性应用于主题建模。实验结果显示,SGWE-TM模型能显著提高主题一致性值,获得主题和主题代表词之间关系。(4)结合主题模型和Skip-Gram(CBOW)模型,提出词嵌入和文本主题联合学习模型T-Skip-Gram(Topic-Skip-Gram)和T-CBOW(Topic-Continuous Bag Of Word)。主题模型结果能够发现具有多义性的词,有研究通过使用词的主题值,解决多义词嵌入的表示问题;也有的主题模型会使用词嵌入相似、相关结果挖掘文本主题。它们都是采用流水线方式工作,后者使用前者的结果,不能反馈调整被使用模型的参数。联合学习文本的主题信息和词嵌入向量具有重要的研究意义,模型能够同时综合二者优点,实现使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。模型T-Skip-Gram、T-CBOW先将隐含变量词的主题值嵌入化,从而用词嵌入获得词的主题变分分布,而后用词的主题嵌入和词嵌入预测文本内相邻词的生成,更新神经网络参数,实现联合训练,同时获得文本的主题分布、主题词项分布、多语义词嵌入和主题的嵌入式表示。实验结果显示,T-Skip-Gram、T-CBOW模型能够获得具有上下文语义的多原型词嵌入,也可以获得关联性更强的文本主题。
其他文献
本文从舞蹈审美特征的角度研究华县皮影,通过华县皮影的溯源及发展历程、表演方式、制作工艺、剧目人物形象及舞台解读,全方位地了解华县皮影这门民间艺术的价值。从舞蹈审美的角度研究皮影的审美,将舞蹈与皮影两种艺术形式放在同一水平面进行共性与个性的对比,发掘两者之间的联系。这是本论文与其他研究华县皮影论文最大的区别。首先研究两者同一类别的特点,寻找架构两者之间的桥梁。再通过舞蹈与戏曲、皮影与戏曲、皮影与舞蹈
隋唐长安城是号称百万人口的国际化大都市,“畦分棋布,闾巷皆中绳墨,坊有墉(墙),墉有门,逋亡奸伪无所容足。而朝廷宫寺、民居市区不复相参,亦一代之精制也。”外郭城108坊又因所处区域不同,里坊规模、结构及其内居住人员身份、社会等级等亦各有不同,又有时间上的变化。本文以皇城以南、朱雀大街以西的太平、通义、善和、通化四坊为例,结合已有文献资料,以坊内居住人员为研究对象,积极探索诸坊的空间结构和形态的发展
素质教育的重要目标是培养和发展学生创新精神和实践能力。一直以来,如何从日常教育教学入手,逐步实现这一目标,也成为每位教师课堂教学的重要挑战。提问是每节课上都会发生的事情,好的问题必定能激起学生的奇思异想,而循规蹈矩、低质量的课堂提问也许会阻碍学生更高水平的发展。因此,本研究尝试以问题连续体为理论基础,设计不同领域小学语文课堂的“问题连续体”,破解问题连续体教学的瓶颈环节,构建问题链式的小学语文教学
党的十九大之后,我国经济社会发展进入了新时代!随着人民物质生活水平的不断提高,精神文化需求越来越旺盛。温泉酒店服务的迅猛发展已与人民对精神文化生活迫切需求的客观形势紧密相连,满足对顾客的精神消费需求正逐步成为当今服务行业的首要标准。温泉酒店作为典型的服务行业,将非物质性、抽象性、概括性、难以搜寻和难以感知为主要特征的温泉服务的无形内涵充分通过有形化的方式展现给顾客,使顾客通过尽可能多的有形展示方式
为改革传统语文教学“单调、呆板、低效”的弊端,李吉林于1978年开始情境教学的实践探索与研究,随后又不断的进行反思与创新,将“情境教学”拓展到“情境教育”提出“情境课程”再到“情境学习”,构建了情境教育独特的理论框架和操作体系,为我国当代教育教学理论和教育改革实践做出了突出贡献,同时也发出了回应世界教育改革的中国声音。本文主要采用文献分析法研究李吉林小学情境教育理论与实践。除绪论外,全文共四部分。
实体经济是一国经济的立身之本,是财富创造的根本源泉。中共十八大以来,中国政府把振兴实体经济摆到了更加突出的位置,出台了一系列利好政策,以国有企业为龙头,引导企业大力发展实体经济。在这一大背景下,一大批实体经济企业如雨后春笋一般出现,但随之而来的是更加激烈的行业竞争。企业想要在如此激烈的竞争中保持不败,从内部管理的角度来说,就是要不断地完善优化绩效管理制度,在最大程度上让企业员工的作用发挥出来,让企
经济全球化、科技信息化等国际大背景下,各个国家广泛认识到人力资本的重要性。要想在动荡的国际之林立于不败之地,拥有持久的国际话语权,就必须注重科学技术对人才的培养,加大教育投资力度,深化教育改革。一方面,鉴于中国仍是发展中国家的国情,东西部发展不均以及城乡教育资源严重失衡的现状,我国的课程改革成为一项艰巨而繁杂的任务。另一方面,国内的一些教育研究和课程改革成果,虽然在理论上渐趋完善,但在实际课堂教学
趋向动词“起来”和“下来”由于其复杂的句法结构和丰富的语义使得汉语学习者学习时很容易出现偏误,尤其是英语母语的学习者。以往对趋向动词的独立研究较多,如偏误分析、本体研究、对比研究,或者是针对某一母语学习者的习得研究,缺乏系统性研究。这些研究又普遍针对的是“趋向补语”,很少有研究者将它作为一类动词去研究。因此本文拟从“起来”和“下来”这两个趋向动词的本体、汉英对比和教学多个角度出发,探讨了英语母语学
随着电子商务的迅猛发展与不断的成熟完善,消费者网络购物的行为习惯已经逐步养成,电子商务呈现蓬勃发展的态势。而以阿里、腾讯、京东为代表的传统互联网电商平台以第三方支付服务为起点,创新支付服务与余额理财服务,如支付担保、余额宝理财、二维码支付,并逐渐开始涉足互联网金融领域,不断推出互联网金融产品和服务,如分期付款,蚂蚁花呗、蚂蚁借呗、芝麻信用,京东白条,持续分享传统商业银行的支付、转账市场份额与活期存
光伏行业近些年来在我国不断的发展,光伏发电企业在快速发展的过程中离不开大量的资金支持,而融资难又是绝大部分光伏发电企业当前所面临的一个重大挑战。建设光伏发电项目的光伏发电企业具有明显的资金密集型企业的特征,光伏发电项目在前期建设时对资金的需求很大,从银行取得借款对于光伏发电企业来说难度较大,因为光伏发电企业融资时能够作为抵押物的通常就只有光伏发电设备,而没有可抵押的不动产,此外,光伏发电项目的成本