基于确定话题和情感极性的博客文本聚类研究

被引量 : 20次 | 上传用户：limingminghappy

【摘要】

：

随着互联网的发展,人们获取信息的需求不断增加,而面对庞大的网络信息量,同时也给人们获得需要的信息带来极大的困难。网络信息中极为典型的是博客文本,或简称博客。博客中常

【作者】

：

庞俊

【发表日期】

：

2010年01期

【关键词】

：

网络舆情博客观点挖掘情感极性聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,人们获取信息的需求不断增加,而面对庞大的网络信息量,同时也给人们获得需要的信息带来极大的困难。网络信息中极为典型的是博客文本,或简称博客。博客中常包含大量评论,包含了博客作者对人,事物,事件等的情感和态度(统称为观点)。这些情感和态度包含着大量有价值的信息。了解这些“观点”、“情感极性”或“态度”可以帮助人们获得更有价值的信息,从而进行有效的抉择,如告诉人们应当购买何种商品,帮助商家制定市场策略,帮助政府掌握网络舆情。分析和挖掘博客中蕴含的博客作者的观点成为当前数据挖掘领域研究热点之一。观点挖掘是一种从论坛、讨论组等内容中挖掘所表达的观点的技术。一般观点挖掘有四个子任务：(1)话题抽取(Topic Extraction)(2)观点持有者识别(Holder Identification)(3)陈述的选择(Claim Selection)(4)情感分析(Sentiment Analysis)。观点挖掘的研究国外起步早,主要针对英文文本；国内针对中文文本的观点挖掘研究起步晚,很多基础性工作尚在进行中。目前,绝大部分的研究把情感极性(或者称为情感倾向,即人对客观事物的好、恶,褒、贬,支持、反对等态度)分为2类(正向和负向)或3类(正向、中立和负向)。众所周之,人的情感是丰富的,仅仅使用这2、3种,不足以表达蕴含在博客文本中的作者的情感,需要用更多类的情感极性来表达。目前,基于作者,日期和话题等对博客文本进行聚类研究已有先例,而基于情感极性对中文博客文本聚类研究仍鲜见报道。本文主要根据博客文本中的作者的情感极性,采用聚类技术,将中文博客文本进行分组处理,使组内文本的情感极性相近,组间文本具有不同情感极性,并达到细分情感极性的目的。经研究发现,尽管博客文本中包含了丰富的情感,不过这些情感可能很分散,而博客搜索引擎搜索到的博客搜索结果项(指标题和摘要部分)虽然包含的情感比较少,但是这些情感倾向性相对集中。所以,本次研究使用博客搜索结果来作为博客文本的精练表达,从而以此为研究对象。本文首先设计一个“爬虫”,用它来获取Google博客由此得到确定话题(本文实验部分选用了两个话题“建国大业”与“刘翔”)相关的结果。然后,使用人工标注的方法根据情感极性把采集到的数据集标注成3类(正向,中立和负向)。接着,使用中科院ICTCLA分词工具对搜索结果数据集进行分词预处理,并使用基于词典的方法提取情感词(文中采用了Hownet和NTUSD两部中文情感词词典)。紧接着,使用Adam Schenker, Horst Bunke等提出的“标准的基于图的文本表示模型”(简称为GBR模型)和本文作者设计的“整合图文本表示模型”(简称为SoB-graph模型)分别表示数据集文本；在此基础上使用Adam Schenker, Horst Bunke等使用的基于图文本表示模型的K-Medoids算法,进行情感聚类分析。最后,使用簇中心方法表示了聚类情感簇,所谓簇中心即同类情感词的折衷情感词,并使用"Ground Truth"方法的三个常用度量：精度(Precision),熵(Entropy)和边缘索引(Rand Index)对聚类结果进行评介。实验结果表明：使用作者提出的SoB-graph模型进行的聚类分析性能较好。

其他文献

合肥市网球青少年后备人才培养的调查研究

青少年网球后备人才的培养是我国当前网球运动发展的重要因素,只有充足的后备人才储备才能改善我国目前网球运动低迷的局面。安徽省网球虽然起步较晚,但是近年来发展迅速,合

学位

合肥市网球后备人才培养网球俱乐部民间资本

针刺对自发性高血压大鼠血管内皮RhoA/ROCK通路的影响

目的:通过对自发性高血压大鼠(SHR)进行干预,观察对比各组大鼠的血压、行为学、血清、基因、蛋白等指标,探讨针刺降压及干预RhoA/ROCK信号通路对血管内皮功能保护的作用机制

学位

针刺高血压血管内皮功能RhoA/Rock通路

城乡居民养老观念比较研究

随着近代我国城乡二元结构的形成与演进,共居共财的传统养老实践在城乡之间历经了不同的发展轨迹。城乡养老实践不仅在反馈模式和接力模式之间徘徊与选择,而且对传统模式和现

期刊

养老观念家文化养老模式家庭养老社会养老城乡二元

浅谈《血证论》治肺10法

浅谈《血证论》治肺１０法卢跃卿１）陈玉龙２）任小巧２）关键词唐容川血证论血证从肺论治《血证论》是清末名医唐容川论述血证证治的专著，其中从肺治血独到新颖，治肺法也随机而立。笔者将治肺

期刊

唐容川血证论血证从肺论治

建立环境行政公益诉讼制度探讨

面对日益严重的环境问题,我国目前已建立了环境民事公益诉讼制度,并有了一些司法实践,具有跨时代的意义。但司法机关采狭义的概念,单指(人民法院)在环境民事公益诉讼中的角色

期刊

环境行政公益诉讼前置程序原告范围环境公益诉讼环保行政机关环境民事公益诉讼制度探讨

齿轮参数加工公差对微型外啮合齿轮泵性能的影响研究

派克公司的液压顶升机构是全套引进派克美国技术在国内制造、组装的小型液压动力系统。系统中的心脏和动力源就是微型外啮合齿轮泵,它的转速可达3700 Rpm,瞬时工作压力可达35

学位

微型外啮合齿轮泵齿轮参数加工公差正交试验性能

《白虎通义》政治思想研究

汉章帝时期召开的白虎观会议是一场重要的政治会议,《白虎通义》作为会议的重要成果,其所蕴含的政治思想对于传统中国社会有着极大的影响。《白虎通义》的宇宙论基于阴阳五行

学位

东汉《白虎通义》政治三纲六纪

薄壁回转体几何尺寸测量的数据可视化研究

某种薄壁回转体零件是高速飞行器的关键部件，其制造精度是影响高速飞行器性能的直接因素。对薄壁回转体的外廓形、壁厚等几何参数进行精密测量是检验其制造精度的有效手段。此

学位

薄壁回转体几何尺寸检测可视化曲面重构OpenGL

初中英语口语教学策略探讨

初中英语口语教学应结合学生的实际情况，采用不同的教学方法，从课堂教学内容、多元化教学、情境创设、兴趣培养等多方面着手，充分调动学生的学习积极性，让学生在英语口语交际过程

期刊

初中英语口语教学策略

基于Tensorflow的电力系统施工人员着装智能识别技术研究

随着社会的飞速发展和经济水平的日益提高,人们对电力资源的使用需求量也在逐步增加。电力工程施工安全与电力系统的正常稳定运行有直接关系,提高电力施工的安全水平和管理效

期刊

电力施工安全着装识别深度学习卷积神经网络

基于确定话题和情感极性的博客文本聚类研究

其他学术论文