基于文本挖掘的微博事件分析方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:weyyiverson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是人们日常生活中重要的社交平台,人们经常在微博上发表观点和获取热点信息。微博平台上用户的文本经常围绕着某个特定事件展开,使得讨论同一事件的微博之间存在着内在关联。通过挖掘和某个事件相关的所有微博,可以了解该事件的发展趋势。已有研究工作针对微博文本进行数据挖掘,涉及微博事件的相关研究却相对较少,主要集中于研究微博事件的分类、微博事件的情感分析以及相关应用。针对于带有事件标签的微博,可以描述对应微博事件情感的变化。研究者们目前主要关注微博事件和现实事件的关系,但对于不同类别用户对于微博事件情感的重要性分析和不相关情感子序列的挖掘却鲜有涉及。此外,有些微博不带有事件标签,如果能将每条微博都和对应事件标签相对应,那么对应事件就能够增加更多的有效信息。因此,围绕如上所述微博事件研究中的情感时间序列分析、不相关子序列及事件分类问题,本文的主要工作如下:第一、本文提出了基于微博事件的情感时间序列分析方法。不同类型用户对于不同事件的情感不尽相同。该方法通过不同情感时间序列的度量,研究不同类别用户对于事件的情感重要性。此外,提出了 SentimentRank模型并将其用于情感相似性的度量。该方法通过爬虫爬取的新浪微博事件数据集进行实验并展示了各类别用户情感重要性,同时对结果进行了分析,并进一步通过实验验证了该方法的合理性。第二、本文基于Shapelet提出了一种用于挖掘情感时间序列中不相关情感子序列的方法。针对于微博事件的情感时间序列,通过生成Shapelet,计算出不相关的情感子序列。该方法通过实验展示了所得到的不相关情感子序列,并分析了由该方法找到相应子序列的原因。此外,实验通过情感相似性度量方法验证了该方法的可行性。第三、本文提出一种基于生成对抗网络的微博事件分类方法。微博平台中存在着一些不和事件标签关联的微博。由于微博文本过短、特征稀疏,导致现有方法提取的特征多样性不足。该方法利用生成对抗网络以增加训练数据的特征多样性。该方法在新浪微博爬取的不同事件数据集上进行了实验,并设置了不同参数。实验结果表明,该方法可以获得更好的分类性能。
其他文献
目的构建抗腮腺炎病毒抗体Fab段基因重组表达载体.方法从腮腺炎患者和腮腺炎抗体IgG阳性正常人群的淋巴细胞中提取总RNA,逆转录成cDNA.用相应的引物进行PCR,扩增出轻链和重链
要想得到完美的清水混凝土结构,就必须要对中间的各个过程进行严格的控制,严格按照施工的要求进行施工。在建筑施工的 过程中,要先制定好相关的施工方案,然后再严格按照施工
[摘 要]目前我国针对行政事业单位实施的是国库集中支付方式,通过国库集中支付方式来约束行政事业单位的财政资金的支出,这样能够更好地全面提升针对行政事业部门的资金的监督与管理,对保证我国国有资金的安全具有非常积极的意义。然而在国库集中支付环境下,行政事业单位的财政资金监管需要进行全面的调整。行政事业单位需要针对国库集中支付环境下的财政资金运行进行全面了解,采取对应性的解决措施来进行资金的监管,这样才
本文总结了纤维素基材料在油/水分离方面应用的研究进展。以不同润湿性表面在油/水分离中的应用为切入点,介绍了3种不同的纤维素基油/水分离材料,并结合作者所在课题组的研究
4个单核配位化合物,[Zn(Maape)2(H2O)2(NO3)2](1,单核),[Cu(Maape)2(H2O)2(NO3)2](2,单核),[Zn(Maape)2Cl2](3,单核),[Zn(Maape)(H2O)4SO4](4,单核),都是用过渡金属盐和配体2-甲基-丙烯酸,4-(吡啶-4-偶氮
对直径相同、高径比不同的4组红砂岩试样进行了单轴压缩声发射试验,获得了各试样的力学基本参数及试验全过程所释放的全部声发射原始波形信号,在对每个声发射信号逐一去噪的
日本社会聚集了神道教、佛教、基督教、伊斯兰教等世界性宗教,还有很多新宗教、新新宗教层出不穷,可以称得上是“神的博物馆”。但是,从各种宗教意识调查的结果来看,大多数日
最近几年随着大数据的爆发性增长,面对数据处理的要求越来越高。无论在速度和精度上都有了更高的需求。在数据的运算中超越函数因其计算的复杂性,在计算速度的提升上一直被众
SiC纤维增强SiC陶瓷基复合材料(简称SiCf/SiC复合材料)具有低密度、高温稳定性、抗氧化性、高耐腐蚀性等特点,在航天及航空发动机热结构部件及核聚变反应堆炉第一壁结构等方面
扭矩标准机是用来复现标准扭矩值并用来进行量值传递的标准装置。由于结构上的差异,不同的标准装置所涉及的不确定因素有所不同,且各项因素对测量结果的影响程度也不同。日前