论文部分内容阅读
Internet网络拥有海量的各类电子文本内容,而且还在快速增长,其中隐含大量有价值的信息。通过主题建模从大量文本内发现文本的主题语义,人们能更好地管理与分析文本数据,从而挖掘出感兴趣或者有意义的信息,这具有重要的理论研究价值和实际应用价值,是文本数据管理领域的研究热点。主题模型主要用于从文本集中挖掘表示语义主旨的主题词集,通过主题词集,能够快速地了解文本集的主要内容;同时将文本投影到该主题词集后,能够获得每个文本的语义信息。由于主题模型采用无监督的学习方式,它在文本数据管理中应用极广,已经在信息检索、文本分类、情感分析、文本自动摘要、舆情分析、热点话题发现和追踪等文本管理任务得到应用。传统的概率主题模型多假设文本的生成符合词袋模型,词袋模型仅考虑文本内单词的频率信息,没有考虑词间的序列等关系。这样简化了模型的复杂度,但容易造成模型只注重于获取文本中词的共现情况,缺少词的相似性和序列关系等语义信息,会导致模型的效果不理想。早期的主题模型评价基于困惑度值,它的评价结果与人们对主题的理解并不一致,由此研究者提出了主题一致性评价标准,主题词的一致性更能够体现主题结果中词序列的语义关系。词嵌入含有丰富的词语义信息,近年来,将词嵌入应用于主题挖掘已是主题模型研究的重要方向。本文先研究词嵌入的性质,改进词嵌入训练中常用的负采样方法,提高词嵌入的语义质量,然后基于词嵌入相似和相关特点研究主题建模,旨在通过词嵌入提高文本主题的挖掘效果。本文主要研究内容及成果如下:(1)根据词的点互信息(Point-wise Mutual Information,PMI)分析词嵌入的相似性,改进负样本生成方法。多数词嵌入模型会为每个词产生两个词嵌入向量,它们作为输入或输出目标在模型学习时表示了词的不同功能,词的PMI信息能够表示词的输入、输出嵌入向量间关系,从而帮助分析词嵌入具有相似、相关性原因。Skip-Gram和CBOW词嵌入模型为提高模型训练速度会使用层级Softmax结构或负采样方法求解模型,获得词嵌入的近似解。负采样方法是一种更高效的模型训练方案,但是原始采样方法存在所有词共享唯一的采样表信息,负样本会主要集中于高频词等问题。根据词的PMI正、负值信息,为每个词构建不同的负采样词表,提高负样本采样的针对性,并使用提前预采样方法减少内存的占有率。实验结果显示,常见词嵌入模型相同词的输入、输出嵌入之间具有较大的相似性,且基于PMI的负样本生成方法能够提高词嵌入的语义质量。(2)使用词嵌入的相似性,获得关联词集,构建层状结构规则项,实现一般层状稀疏主题编码(General Hierarchical Sparse Topic Coding,GHSTC)和稀疏层状主题编码(Sparse Hierarchical Sparse Topic Coding,SHSTC)。主题模型参数繁多、关系紧密,使模型的求解非常困难,而且主题模型缺少词关联信息。通过取消词的相互独立性假设,约束词间具有的联系,是常见地提高主题质量方法。稀疏主题编码简化了模型参数的表示方法,但是词间还缺少关联信息。GHSTC和SHSTC主题编码策略通过词嵌入获得具有相关语义的词集,关联词集内的词编码表示为层状结构稀疏规则项,作用于主题编码模型,这样通过词编码的稀疏性和关联性,既能使主题词项分布更稀疏,也能提高主题词间的关联性,从而使文本语义表示更准确。实验结果显示,GHSTC和SHSTC主题编码能提高文本主题的建模效果。(3)使用预训练词嵌入,应用神经网络结构,构建SGWE-TM(Skip-Gram structure and Word Embedding-Topic Model)主题模型。词的嵌入式表示含有丰富的词语义信息,且神经网络结构非常适合词嵌入的使用,但目前多数应用神经网络方式的主题模型没有充分使用词嵌入的特性。分析发现常见模型的词嵌入学习类似于分解词的点互信息矩阵,而主题模型的一致性评价方法也使用词的点互信息,二者存在紧密的联系。SGWE-TM模型通过引入Softmax函数关联主题嵌入和词嵌入,使用Skip-Gram结构描述中心词的主题和相邻词之间的生成关系,从而直接将词嵌入的相似、相关特性应用于主题建模。实验结果显示,SGWE-TM模型能显著提高主题一致性值,获得主题和主题代表词之间关系。(4)结合主题模型和Skip-Gram(CBOW)模型,提出词嵌入和文本主题联合学习模型T-Skip-Gram(Topic-Skip-Gram)和T-CBOW(Topic-Continuous Bag Of Word)。主题模型结果能够发现具有多义性的词,有研究通过使用词的主题值,解决多义词嵌入的表示问题;也有的主题模型会使用词嵌入相似、相关结果挖掘文本主题。它们都是采用流水线方式工作,后者使用前者的结果,不能反馈调整被使用模型的参数。联合学习文本的主题信息和词嵌入向量具有重要的研究意义,模型能够同时综合二者优点,实现使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。模型T-Skip-Gram、T-CBOW先将隐含变量词的主题值嵌入化,从而用词嵌入获得词的主题变分分布,而后用词的主题嵌入和词嵌入预测文本内相邻词的生成,更新神经网络参数,实现联合训练,同时获得文本的主题分布、主题词项分布、多语义词嵌入和主题的嵌入式表示。实验结果显示,T-Skip-Gram、T-CBOW模型能够获得具有上下文语义的多原型词嵌入,也可以获得关联性更强的文本主题。