舆情分析的混合主题模型研究与应用

来源 :陕西科技大学 | 被引量 : 0次 | 上传用户:fuyuanluyi13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络舆情作为重要的信息集散地,是人们参与和了解社会性话题的重要途径。而舆情信息的大数据特性在一定程度上却增加了信息理解和监控的难度。如何从大量非结构化数据中提取有效信息,甚至是追踪特定主题的演化分析成为当下舆情分析研究的重任。所以本文选择上述问题作为研究背景,从改进中文分词技术出发,以主题模型及其拓展作为主要的方法。力求通过研究思路的创新来提高当前研究方法在舆情分析中的应用效率和质量。本论文的主要工作归纳如下:(1)针对现有中文分词算法中“分词失义”的问题。本文通过定义广义名词性分词,提出了名词性合并算法。其基于替换、合并和修正三大规则实现对Pkuseg分词算法在语义完整性和未登录词识别上的改进。在实际应用中发现,基于该算法的特征分词划分效率和质量更高。鉴于改进后的算法对词长特征的影响,本文验证了其对常见的三种特征权重计算方法的影响。实验发现基于TFIDF的特征权重方法要好于其它两种涉及词长特征的方法。(2)针对传统在线主题模型在相邻主题参数先验传递过程中新词处理粗糙、先验信息源考虑不足的问题。本文通过doc2vec模型提取文档向量和词向量实现对传统在线主题模型语义空间的扩充,并据此实现对现有在线主题模型的改进。在一定程度上提升了主题模型的语义挖掘深度。通过实验论证发现,在混合语料的话题演化分析中,其与已有的先进方法相比具有更加稳定的效果。除此之外,在相似语料的子话题演化分析中,改进的模型对话题产生的子主题捕捉更加灵敏、准确。(3)针对传统主题模型在短文本上能力受限的问题,本文基于在线主题模型结构,提出了带初始化的短文本主题模型拓展方案:首先对外部语料库和当前建模语料分别添加伪时间戳标签:初始时刻和当前时刻。然后基于在线主题模型的参数过程实现对当前文本主题建模效率的改进。这种结构设定的目的在于增加文本特征的同时,保证平衡外部语料库与建模语料的主题关联度,而且这种模拟参数传递过程的方法有利于缓解短文本上主题建模易受噪声影响的现状。在实际应用中发现,其主题一致性程度明显提升,要好于短文本上狄利克雷混合分布模型。
其他文献
气体传感器广泛应用于大气环境监测、企业安全生产监控、室内污染气体检测、疾病诊断等领域。在市场上种类众多的气体传感器中,以金属氧化物半导体材料为代表的半导体式气体
当前,面对航空收入减少的压力,通过信息技术的有效利用,充分拓展非航业务的收入渠道,发挥信息直线传递和网络辐射的特性,深度整合生产运行系统,实现航空服务流程的最大便捷化,进一步改善客户体验,增强航空竞争力,从而大力推动航空经济的发展,已成当务之急。本文分析非航服务与资源管理的业务,将非航资源与服务与机票打包成产品,形成自有的产品生命周期模式,在此基础上研究和开发了一个非航空类资源管理与机票组合销售管
背景:甲状腺髓样癌(medullary thyroid carcinoma,MTC)是一类很罕见的神经内分泌肿瘤,该病的病理生理学基础为甲状腺滤泡旁细胞(C细胞)的异常分化以及恶性增殖,由原癌基因RET发生突变导致,此外,近年microRNA与甲状腺髓样癌的发生的相关性也被证明。该病的临床表现缺乏典型性,常常以腹泻、潮红等类癌综合征为主。以发病特点的不同当作分类依据,MTC又包括散发性MTC(sp
为满足用电用户日益增长的用电需求,泛在电力物联网和智能电网开始融合发展,配电网作为连接用户的最后环节,对用户的供电质量和用电可靠性产生直接影响,而智能配电终端(Smart
粒子滤波是在蒙特卡罗方法和贝叶斯理论的基础上发展起来的一种滤波方法。它的基本思想是把要求解的状态空间上的概率分布用粒子集合来近似。这里状态空间中的粒子其实就是统
悬架系统作为车辆减振的重要部件,对车辆的乘坐舒适性和操纵稳定性起着至关重要的作用,其中主动悬架系统由于能够实时的产生与路面激励和车身姿态相适应的控制力,使车辆处于
随着计算机技术和电子技术的不断发展,图像分割技术也变得越来越重要,医学成像设备已经成为现代医疗诊断疾病不可缺少的工具。医学图像分割不仅为医学人员诊断提供便利,而且
如今数据中心的管理是云计算行业研究的热点。如何提高数据中心的资源利用率,保证数据中心的负载均衡成为了研究的重中之重。目前,对于云数据中心资源利用率的优化主要是通过
我们要清醒认识和把握"百年未有之大变局"的可变性与复杂性。最近一百年来,人类历史是一个剧烈动荡与高速发展引致的经济全球化进程,是一个由资本扩张支配的全球体系,是一个
研究背景:肝细胞肝癌(HCC)是一种多基因突变、高度异质性的恶性肿瘤。ZNF384基因编码一种可结合并调节细胞外基质基因MMP1、MMP3、MMP7及COL1A1启动子的转录因子。大量研究表明ZNF384通过基因重排参与了急性B淋巴细胞白血病的发生发展。ZNF384在肝癌中改变频率大约9%,但有关ZNF384在HCC中的功能研究没有相关报道。实验方法:通过免疫组化染色法(IHC)检测ZNF384在