基于OTSCM模型的主题情感在线追踪

来源 :现代情报 | 被引量 : 0次 | 上传用户:jessieharbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕网络舆论主题情感在线分析对舆情研判与管理起着十分重要的作用,当前的主题情感模型存在着主题与情感建模关系不紧密,情感挖掘偏斜等问题,容易造成舆情误判。文本在OLDA(On-Line Latent Dirichlet Allocation,OLDA)模型的基础上引入情感参数,并提出情感遗传思想,建立基于情感遗传的在线主题情感混合模型OTSCM(On-Line Topic and Sentiment Combining Model)。该模型把t-1时间片内的主题情感分布作为t时间片内主题情感分布的先验,通过构造主题情感演化矩阵,生成t时间片内文档—主题、主题—特征词以及主题—情感词3个分布,最后使用交叉熵方法计算t时间片内主题分布与t-1之前主题分布的相似度,得出t时间片内主题情感演化结果。本文在5个数据集上对OTSCM进行了验证,并与其它流行算法进行了对比,实验表明,文本方法在主题情感在线识别方面达到了良好的效果。
  〔关键词〕OLDA模型;主题情感;情感遗传;OTSCM模型;情感计算;情感演化
  DOI:10.3969/j.issn.1008-0821.2017.12.006
  〔中图分类号〕G206.2 〔文献标识码〕A 〔文章编号〕1008-0821(2017)12-0035-07
  〔Abstract〕The on-line sentiment analysis of network topic plays an important role in the evaluation and management of public opinion.The current topic and sentiment models have a problem that the relationship between the topic and sentiment is not closely,which likely cause the deviation of sentiment mining and misjudgment of public opinion.This paper introduced the sentiment parameter into OLDA model and proposed a On-Line Topic and Sentiment Combining Model (OTSCM) based on sentiment genetic.This model made the topic and sentiment distribution of the t-1 time slice as a priori of the topic and sentiment distribution of t time slice.By constructing the topic and sentiment evolutionary matrix,the document-topic,topic-word and topic-sentiment 3 distributions were generated.The cross entropy method was used to calculate the similarity between the topic distribution of the t time slice and the t-1 time slice for getting the evolutionary result of t time slice.At last,OTSCM were validated on 5 data sets and compared with other state-of-the-art algorithms.Experiments showed that our approach had better performance.
  〔Key words〕OLDA model;topic sentiment;sentiment genetic;OTSCM model;sentiment computing;sentiment evolution
  随着我国网民数量的激增以及Web2.0的应用,互联网已成为社会热点事件传播及民众意见表达的主要载体,任何社会事件的发生都会在网上引起热烈的讨论,且随著时间的推移,民众情感也会发生动态变化。网络舆论已成为一支重要的社会参与力量,在一定程度上影响决策者的决策方向,所以网络话题发现与跟踪以及情感演化分析一直以来都是网络舆情领域研究的热点,对及时掌握民众社会心态从而制定合理的管理策略起着十分重要的作用。
  主题检测与跟踪[1](Topic Detection and Tracking,TDT)研究始于1996年,目的在于发现网络中潜在的主题并跟踪其发展过程,其在社会热点事件网络舆情态势监控中应用广泛。2003年Blei等[2]提出隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA),用于寻找语料库中潜在的主题,LDA模型把文本从词的多维空间降维到主题空间,用特征词来表征语料库中的主题。随后,Alsumait等[3]提出在线LDA模型(On-Line Latent Dirichlet Allocation,OLDA),该模型融入了主题遗传思想,把t-1时间片内的主题分布后验作为t时间片内主题分布的先验,通过计算相邻时间片内主题相似度,在线跟踪主题的演化过程。OLDA模型考虑了主题的延续性,但每个时间片内的主题数K设置是固定的,没有考虑到新话题产生、旧话题消亡以及话题分裂、合并等情况,致使主题挖掘精度与LDA模型相比并没有得到明显提高。针对这个问题,众多学者提出了多种OLDA模型的改进算法,其中,Hu等[4]提出了一种话题演化建模与分析方法,该方法采用模型选择策略动态确定各时间片内子话题数,并对演化矩阵进行动态增减,提高了各时间片内话题识别精度,另外,该方法提出基于相对熵的子话题相似度计算方法,话题演化计算精度也得到了一定程度的提高。   由于LDA模型在主题识别中的优异表现,很多学者在此基础上添加了情感参数,提出了基于LDA的主题情感模型,如:ASUM模型(Aspect and Sentiment Unification Model)[5]、TSM模型(Joint Sentiment/topic Model)[6]以及JST模型(Topic Sentiment Mixture)[7],这些模型把主题和情感进行联合建模,不仅能抽取语料库中的主题词,还能识别主题下的情感词,通过计算主题下情感词的综合情感值,得出主题的情感倾向。上述主题情感模型有个共同的缺陷就是只能对静态数据进行建模,不能在线跟踪主题的情感变化情况。Huang等[8]提出了一种基于概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)的网络话题情感分析方法,该方法使用PLSA对不同时间片内的主题进行提取,并把主题词细分为主题特征词和主题情感词,通过主题情感计算和主题相似度计算在线跟踪话题及其情感的演化。该方法的缺陷是没有对情感进行单独建模,情感词只是从主题词里分离出来的,使得情感词来源受限,不能精确表达主题的情感。Li等[9]提出了动态主题情感模型(DTSCM),并应用与微博主题情感演化挖掘。该方法使用主题情感模型分别对每个时间片内的微博文本进行建模,得出各时间片内的主题词和情感词,通过主题间的相似度计算,得出微博情感演化图。该方法与文献[3]相似,没有考虑到不同时间片中的主题变化,且没有考虑到以前时间片内主题情感分布对当前时间片内主题情感分布的影响。
  针对当前主题情感演化模型存在的问题,文本在OLDA模型的基础上引入情感参数,并融入情感遗传思想,提出基于情感遗传的在线主题情感跟踪模型OTSCM。该模型借鉴OLDA模型中主题遗传思想,认为t时间片内的主题—情感词分布也只受到t-1时间片内主题—情感词分布的影响,把t-1时间片内主题—情感词分布后验当作t时间片内主题—情感词分布的先验。t时间片内的主题数量采用贝叶斯方法动态获得,通过建模t时间片内主题及其情感,得到主题—特征词分布和主题—情感分布,最后通过计算t时间片主题与t-1之前主题相似度得出t时间片内主题情感演化趋势。
  1 相关理论
  1.1 LDA模型与OLDA模型
  潜在隐狄利克雷分配[10](Latent Dirichlet Allocation,LDA)是由Blei等提出的用于寻找语料库中潜在主题的概率生成模型。该模型假设每个文档包含多个主题,每个主题包含多个特征词,文档以一定的概率选择主题,主题以一定的概率选择主题词。LDA模型把文档从N维词分布降维到K维主题分布,生成文档—主题θ和主题—词汇φ两个分布矩阵。在大数据环境下,LDA模型主题挖掘效果非常明显[11],缺陷是只能对静态数据进行建模,不能识别主题在时间上的演化分布。
  为了使LDA模型具备在线主题演化挖掘能力,Alsumait等[3]把时间粒度引入LDA模型[2],建立在线主题生成模型OLDA。该模型假设t时间片内的主题—词汇分布φt只受到t-1时间片内φt-1分布的影响,不同时间片内的主题—词汇分布可以看成一个隐马尔科夫链,采用t-1时间片内的主题—词汇后验分布φt-1作为t时间片内φt的先验,以此来保持主题的连续性,φt服从狄利克雷分布的公式如(1)所示。
  OLDA模型采用增量Gibbs算法对t时间片内的文本数据进行采样,反复迭代θt和φt,直至达到稳定状态为止。
  虽然OLDA模型考虑了主题的延续性,但也存在着明显的缺陷[8],即各时间片内的主题数设置都是固定值,忽略了新主题的产生、旧主题消亡等动态变化情况,且主题数设置不合理容易导致主题挖掘的偏斜。
  1.2 流文本情感词典扩充
  通常文本包含情感特征词,文本的情感计算可以转化为对情感词的情感计算[12],计算过程分为两步:1)首先创建情感词典;2)计算测试文本内情感词与情感词典之间的语义关系,得出测试文本的情感值。情感词典由3个数据表组成:情感词表、程度副词表和否定词表。情感词表包含4个属性:词、性质(褒义或贬义)、情感值和位置;程度副词表包含3个属性:词、强度值和位置;否定詞表也包括3个属性:否定词、否定值(否定一般设置为-1)和位置。
  1.2.1 情感词表在线扩充
  对于流文本而言,设t时间内到达的文本集为Dt={ d1t,d2t,…,dnt},t时刻的文本情感通过计算文本内情感词与t-1时刻的情感词典之间的相关关系得到。情感词典的构造包含以下步骤:当t=1时,统计并计算t时刻到达的文本集内的情感词,以此作为情感词表Ws的初始值。当t>1时,利用t时间片内的文本对情感词典进行扩充,依次循环,使得在每个时间片上Ws都会被扩充一次。以下介绍情感词表在t时间片内的扩充方法。
  2 基于OTSCM模型的主题情感在线追踪
  由于OLDA模型只能在线识别流文本主题,不能识别主题下的情感,所以,文本把情感参数引入到OLDA模型中,参照OLDA模型中的主题遗传思想,提出情感遗传概念,建立在线主题情感混合模型OTSCM(Online Topic and Sentiment Combining Model)。模型的核心思想是:t时间片内的流文本集Dt是多个主题和情感的混合,主题不仅以一定的概率选择某个主题特征词,而且以一定概率选择某种情感特征词,主题特征词和情感特征词均依赖与主题,而主题又依赖与文本。通过t-1时间片内主题遗传度和情感的遗传度建立t时间片内文档、主题、情感和词汇4个变量之间的联合条件概率,再采用吉布斯增量采样算法训练得到文档—主题θt、主题—特征词φt、主题—情感词μt3个分布矩阵,最后计算t与t-1时间片之间主题相似度,得出主题及其情感的演化结果。   2.1 模型描述
  设t时间片内的文本集Dt包含Kt个主题,OTSCM模型认为文本是主题的混合,主题又是特征词和情感词的混合。模型生成文本的过程如下:首先从文本—主题分布θt中抽取一个主题,根据抽到的主题从话题—特征词分布φt中抽取一个特征词,从主题—情感分布μt中抽取一个情感,再从情感—词汇分布中抽取一个情感词。OTSCM模型是一个4层贝叶斯网络,其生成过程如图1所示。
  从表2中可以发现数据集中存在6个报道主题,主题1:各方救援,报道时间为t1~t5;主题2:挖掘到井底,但没见到孩子,报道时间为t4~t5;主题3:警方带走孩子父亲和爷爷,报道时间为t4~t5;主题4:孩子找到,但无生命体征,报道时间为t5~t7;主题5:孩子爷爷磕头致谢,报道时间为t6~t7;主题6:男童下葬,大坑回填,报道时间为t7~t8。根据主题—情感词分布μt,表3显示了在t=4时间片内OTSCM模型识别出的主题下的情感词,并通过公式(21)计算得出主题综合情感值。由于篇幅限制,其他时间片内的主题情感识别结果不再一一列出。
  3.3 主题情感在线演化
  为了清晰表达模型对新闻主题的舆论情感演化识别情况,根据主题演化计算结果和不同时间内主题情感计算结果,可以描述出所有主题舆论情感演化过程,如图2所示。
  从图2中可以得出,每个主题下的舆论情感都是动态变化的,其中主题1的舆论情感变化较大,范围是(0.74,-0.35),原因是在救援初期民众表达了强烈的正情感,但随着救援时间的拉长,民众开始质疑救援方案,所以舆论情感逐渐降低,到t=5时,小孩被救出时已死亡,民众的负面情绪到达了最高值,出现了较强的负情感,分析原因是因为民众对救援方案产生质疑。主题2和3的舆论情感在中性情感附近,体现了民众复杂的心态,即井下没看到孩子,且警察又把孩子父母带走了,民众都在对最终答案进行猜测,没有明确的情感倾向。主题4和5下的舆论表现出了很强且稳定的正情感,孩子被发现已死亡,且爷爷磕头感谢,民众的正面情绪占主导,纷纷表达了对孩子的惋惜和对爷爷行为的尊重。主题6的舆论情感表现为低强度正情感,因為民众对孩子下葬表现出了正情感,但是对威胁儿童的安全隐患表示了担忧,抵消了一部分正情感。
  3.4 模型性能评价
  为了验证本文算法的通用性,本文以“河北男童落井事件”、“山东辱母杀人事件”、“萨德入韩事件”,“徐玉玉事件”及“中印对峙”5个新闻数据集作为测试数据,依次命名为DataSet1~DataSet5,以ASUM、TSM、JST、DTSCM 4个模型作为OTSCM的对比对象,分别进行了实验,各算法的准确率对比结果如表4所示。
  从表4中可以看出,文本算法的准确率在各组数据集中均为最高,原因是ASUM、TSM和JST模型中主题数必须事先固定,受到人为经验影响较大,容易造成主题识别模糊,且三者都是静态模型,主题先验和情感先验设置固定,没有考虑到在前后时间片内的关联。DTSCM模型虽然在不同时间片内动态获取主题数量,但是不同时间片内的主题和情感不具有传递性,先验知识得不到有效利用,主题和情感的计算在各时间片内都是孤立的。本文算法填补了上述算法的缺陷,每个时间片内的主题和情感不仅具有遗传性,而且不同时间片内的主题数是动态获取的,有效地提高了主题和情感的分类精度。
  实验进一步验证了各算法之间的困惑度对比,困惑度是检测聚类质量的评价标准,困惑度越小,算法性能越好,困惑度的计算公式如(22)所示。
  其中,p(wi)表示词wi在文档d中出现的概率,Nd表示文档d中词的数量。试验中在每个数据集中随机抽取70%的文本数据作为训练集,剩下的30%作为测试集,各算法的困惑度对比如图3所示。
  从图3中可以得出,OTSCM算法的情感识别困惑度最低,情感聚类效果最好。
  4 结束语
  本文把情感信息引入OLDA模型中,并提出情感遗传思想,建立了基于情感遗传的在线主题情感跟踪模型OTSCM。该模型把t-1时间片内主题情感后验作为t时间片内主题情感先验,生成文档—主题、主题—特征词和主题—情感词3个分布矩阵,再利用基于交叉熵的相似度计算方法判断当前t时间片内主题情感的演化趋势。实验结果表明:与其他最流行算法相比,OTSCM模型在主题情感在线演化分析中具有良好的性能。
  参考文献
  [1]Li G,Jiang S,Zhang W,et al.Online web video topic detection and tracking with semi-supervised learning[J].Multimedia Systems,2016,22(1):115-125.
  [2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].JMLR.org,2003,3(9):993-1022.
  [3]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]// Eighth IEEE International Conference on Data Mining.IEEE Computer Society,2008:3-12.
  [4]HU Yan-Li,BAI Liang,ZHANG Wei-Ming.Modeling and Analyzing Topic Evolution[J].Journal of Automatica Sinica,2012,38(10):1690-1697.   [5]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C]// ACM International Conference on Web Search and Data Mining.ACM,2011:815-824.
  [6]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.
  [7]Lin C,He Y,Everson R,et al.Weakly Supervised Joint Sentiment-Topic Detection from Text[J].IEEE Transactions on Knowledge
其他文献
留学生归国,需要了解这些政策。  落户条件  ① 在国外获得硕士(含)以上学位;出国前已获得国内博士学位,出国进行博士后等访问研究。  ② 出国留学一年以上。满365天以护照出入境记录为准,目前的政策是留学期间去其他国家旅游的时间不扣除;学业结束后第一次回国护照上的入境时间为准(即一般情况英国9月课程结束后回国了,再回去交毕业论文或者参加毕业典礼的时间均不 算)。  ③ 学成回国两年内通过在京用人
2020年5月20日,由光明日报《留学》杂志主办的《留学》云直播爱尔兰专题第二期圆满结束。本次直播主题为“挖掘‘绿岛’宝藏专业:商科、计算机、医学、游戏开发……”活动邀请到了爱尔兰教育推广署负责人杨杰、爱尔兰国立科克大学中国代表处主任张蓓、爱尔兰卡洛理工学院中国办公室负责人宿铮、都柏林国际预科学院国际部招生主任Ray Halpin、都柏林国际预科学院校方代表吕丹丹、爱尔兰都柏林商学院中国区负责人娄
〔摘 要〕提供云计算平台服务的营运商时常破坏个人信息安全,这侵害信息主体与利用者的权益并阻碍了云计算等产业的发展。针对前述风险,我国宜通过治理信息供应链,督促营运商和利用者完善安全管理,从而提高供应链的运行效率;同时对供应链前后两端的主体与利用者的权益加以保护,并鼓励他们通过合作来共同维护信息安全。为加强风险治理的效果,我国须提高营运商与利用者的工作人员的信息素养。  〔关键词〕个人信息;云计算;
〔摘要〕为探究国内图书馆嵌入式服务的发展现状和研究热点,本研究以CNKI近十年收录的930篇图书馆嵌入式服务相关文献为分析样本,采用共词分析和社会网络分析相结合的方法,利用SATI、UCINET和SPSS软件工具,绘制出国内图书馆嵌入式服务研究热点分布的可视化知识图谱,并对效果进行了验证,据此归纳出图书馆嵌入式服务研究领域的5个研究热点主题群,分别是:图书馆嵌入式学科服务,图书馆嵌入式教学,Web
[摘要][目的/意义]产业中专利的实施需要良好的技术知识基础并形成有效的技术组合,本文选取3D打印这一战略性新兴技术的专利情报作为研究对象,探究了技术知识基础对专利技术产业化的作用机制,并从专利管理视角提出区域与工艺技术知识基础的界定及其对技术产业化的影响,拓展了知识基础理论在产业创新研究中的应用。[过程/方法]实证研究中,运用孔多塞评价法对中国三省区和3D打印三种主流工艺的专利技术知识基础进行多
近期,4月、5月的托福考试相继被取消,引发众多“准留学生”的关注和担忧。在4月7日的直播节目中,《留学》副总经理赵冰燃女士与ETS中国办公室代表、爱尔兰教育推广署负责人及一位學生家长从不同角度解读特殊时期学生关注的焦点问题,既有官方的专业指导,也有学生家长的切身体会,并热心回答了听众们的问题。  接下来,还有更多留学行业有关的热点话题上线,敬请关注。  您能否对托福考试最新的一些官方政策做一下介绍
在别国作家笔下改头换面的他们,你还认得出吗?  尼尔·盖曼的小说《美国众神》与其改编的同名美剧中,出现了众多世界各地的神话传说人物,除了人们比较熟悉的北欧神话和爱尔兰神话外,还有不少非洲、南美以及斯拉夫地区的故事,如果对这些地区的文化历史不够熟悉,即便看注释也很难体会到书中特有的文化背景造成的情节冲突。本期将介绍书中几位出场过的重要斯拉夫配角。  斯拉夫神话广泛分布在如今的俄罗斯、乌克兰、波兰、捷
择校时需要考虑的因素,除了学术科研水平、国际化程度等之外,学生就读的实际体验也十分重要。  近日,《普林斯顿评论》(The Princeton Review)发布 2021 年美国最佳大学排名。此次排名数据源自对全美386所大学的14.3万名学生进行的调查。排名涵盖学术、种群特征、课外活动、政治特征、生活质量、学校类型、社会活动、都市生活等八大类别,共计62份细分榜单,每份榜单中列出排名最高的20
6月28日,雅居乐教育集团与英国培生集团对外宣布,签署战略合作协议,建立全面伙伴关系。双方在广州雅居乐中心举办了签字仪式。  双方将围绕教育内容和资源订制、教师培训体系的建设和服务、A-Level,IGCSE,BTEC,PTE等国际考试及认证、数字化移动学习平台、在线教育、人工智能和学习大数据以及高等教育等七个领域进行深入合作,将培生优质的教育资源、权威的国际考试与测评、丰富的数字化学习平台全面注
摘 要:[目的]通过研究当下网络环境的具体情境,利用概率分析的方式判断具体舆情所属的案例类型,从而为网络舆情危机响应决策提供依据。[方法]使用贝叶斯网络模型作为分析方法,构建网络舆情案例匹配的指标体系和案例匹配模型。[结果]通过48个网络舆情危机中的随机43个事件作为训练数据,构建贝叶斯网络模型,使用剩余5个网络舆情危机事件作为测试组,经检验测试样本案例匹配结果与事实相符。[结论]本文通过构建网络