文本数据流概念漂移检测与动态话题检测

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xfcll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网不断发展的今天,人们逐渐喜爱在Twitter、微博等在线社交应用上对所在地区、全国各地乃至世界上任何一个角落发生的事件表达自己看法或见解,如常见的发帖、评论等,由此生成大量的文本数据流。这些文本数据流凭借其数据量大、实时性高、参与面广等特点,已然成为现实世界事件的传感器。面对如此庞大的文本数据,分析并提取其中正在讨论的热点话题,不仅为人们提供了解实时新闻的途径,还可以帮助政府机构引导舆情。然而,相较于传统新闻媒体来说,面向社交媒体的文本数据流普遍存在内容篇幅简短、数据格式不规整和干扰数据过多等问题,使得其在话题检测任务中面临着更多的困难。此外,文本数据流自身存在的分布动态变化现象——概念漂移,也为热点话题检测带来一定限制和挑战。为了探索以上问题,本文提出基于文本数据流的动态热点话题检测算法,主要工作列出如下:(1)针对文本数据流中频繁发生的概念漂移现象,本文提出一种基于Kruskal-Wallis统计检验方法的概念漂移检测算法KWTDD。通过KWTDD及时、准确地检测出文本数据流中数据分布变化,并通知数据流在线学习模型进行动态更新来快速适应变化后的数据流,从而提高数据流模型的学习效果。此外,本文还设计漂移预判断模块来实现快速跳过文本数据流中的平稳阶段,以达到有效加速原有学习模型执行效率的目的。(2)为实现文本数据流的热点话题检测任务,本文提出一种基于聚类的话题检测算法CHClustream。该算法主要包含两个部分,其一是CHECM话题聚类算法,主要针对DBIECM聚类算法中存在的时间效率低下、聚类效果较差的问题进行改进。其二是在原有TF-IDF的基础之上使用文本关注度、用户影响力等因素进行增强的TF-IDF-AE话题提取算法,期望在话题检测数设置较少时,提高话题提取准确性。(3)针对以上提出的两种算法,本文设计多组对比实验来进行验证。首先,基于MOA(Massive Online Analysis)数据流实验平台,将KWTDD与其他7种常见概念漂移检测算法在27个数据集上进行实验。结果表明,使用KWTDD作为概念漂移检测器的数据流学习模型表现最好,在83.33%的人工数据集上获得最高的F1分值。之后,本文将CHClustream在包含100万条推文的新型冠状病毒肺炎数据集上进行实验,相比其余6种常见的话题检测算法,CHClustream不仅获得较高话题查全率,还能够相对较早地检测到话题。最后,将KWTDD与CHClustream结合实现话题检测的实验也验证出KWTDD具有提高话题检测实时性的能力。
其他文献
随着网络环境的日益复杂,网络攻击每天都在增加,其频率和复杂度也在增加,网络攻击的手段层出不穷。更严重的是,它们经常绕过组织现有的保护控制,利用新技术、新手段,攻破目标边界防御直接进入到内网,损坏或窃取数据,对企业造成严重的经济损失,危害国家和个人利益。目前网络安全形势处于攻防完全不对等的局面,攻击手段更新迭代速度极快,导致防守方一直处于不利的地位。因此防守方为了对攻击者形成威慑,保护企业数据安全,
驾驶行为预测在自动驾驶以及辅助驾驶技术中发挥着十分重要的作用,优秀的驾驶行为预测能力可以提升自动驾驶车辆的运行效率和安全性。但是在真实的场景下,道路场景的复杂性和诸多不确定性给驾驶行为预测带来了巨大的挑战,使得预测难度大、准确率低。深度学习算法依靠海量的数据支撑和强大的学习能力,具有建模简单、泛化能力好的特点,合理地设计深度学习网络结构就可以实现较高准确率的驾驶行为预测,然而深度学习算法又过度依赖
近年来,随着我国的快速发展以及人们对于建筑环境要求的提高,导致出现了原有的建筑开始新建、改建、扩建等现象。而这些现象的出现使建筑垃圾急剧增加。建筑垃圾运输和处置的过程往往存在着风险,定量的了解这两个过程的风险状况,能够提前对风险进行预防,并能减少事故发生的可能性。本文首先将建筑垃圾的运输风险定义为包括交通事故的风险、监管的风险、路线存在的风险三个方面的风险,建筑垃圾处置的风险定义为消纳场堆体发生事
计算机断层扫描(Computerized Tomography,CT)是一种常用的临床医学成像技术,它利用具有穿透性的射线对人体扫描成像,能够得到高质量的人体组织解剖图像。但是,CT成像使用的X射线对人体具有辐射危害,对基因造成损伤,甚至增加患癌风险,对孕妇和儿童的危害更大。临床上通常使用降低管电流量的方法来降低X射线的剂量,从而降低辐射带来的危害。但降低X射线剂量会导致CT图像的质量较低,存在更
我国城市区域协同发展,城市航空需求日趋增长,民用航空枢纽进入高速建设阶段。同时,轨道交通作为公共交通的主要途径,以高效便捷的运行特点,成为枢纽机场与城市衔接的主导方式。在枢纽机场与轨道交通融合建设的背景下,实现交通人流转换的接驳空间应运而生。随着航空客流的持续增长,枢纽机场轨道交通接驳空间体量逐渐增大,功能及路径趋于复杂,加剧了旅客在空间内的寻路困难,降低了旅客出行效率。因此,如何协调日趋复杂的交
随着我国铁路网规模的逐渐扩大,列车运行图变化频繁,开行的列车数量越来越多。由于技术等级、客流基础、资源布局等方面差异,不同线路上开行列车的特征越来越复杂。按照目前的列车分类和车次命名规则,没有明晰的谱系框架,难以表达相关列车产品的特征,不便于旅客认知和记忆,也不利于铁路运输组织管理。因此,为了更好地指导客运列车产品优化设计,更好地向旅客传递客运列车产品设计理念,更好地提高铁路的市场竞争力。本文对客
当前发酵废水处理行业普遍存在能耗高、物耗高、碳排放高的“三高”特征,节能减排潜力巨大,然而整个发酵废水处理行业针对节能减排改造的方向却不够明朗。本研究选取典型发酵废水处理系统为研究案例,首先对其经过部分厌氧氨氧化改造后的运行效能进行全流程分析,其次基于生命周期评价分析各单元环境影响贡献因子,进而结合敏感度分析结果找出节能减排的痛点环节,并从技术-环境-经济多角度综合论证提出最适合发酵废水处理行业的
"希望未来能在昆明组织一支冰橇冰球队,为残疾人提供参与冰上体育运动的机会,让他们同样能够平等享受到冰球运动的激情与乐趣。"在北京青少年冰球俱乐部年赛上,昆明缅茨姆冰球俱乐部的负责人台胞青年杨闵然满怀憧憬地道出心中梦想与计划。"90后"的杨闵然一头短发,带着几分男孩子的爽朗气质,精致的五官、明亮有神的双眼凸显出她的秀丽聪慧。杨闵然小小年纪就开始学习冰球,
期刊
近年来,随着电子不停车收费(ETC)技术广泛普及和公路联网收费技术水平整体提升,我国于2020年初取消了高速公路主线上的省界收费站,在缓解交通拥堵方面成效显著。但主线上的起终点收费站仍需保留,未来可能成为新的拥堵痛点。由于收费站的布局形式设计直接影响了道路的通过能力和服务水平,本文从收费站布设方式的角度研究能够顺应高速公路发展变化的收费站设计理论,为收费站的整体布局提供参考。研究内容包括:(1)收
零售商贷出融资(Retailer-lending Finance,以下简称RLF)是一种新兴的供应链金融模式,当供应链中的中小企业(供应商)出现资金短缺问题而又难以获得银行贷款时,RLF模式既可以帮助中小企业实现融资,也可以给核心企业(零售商)带来新的利润增长点。但是,RLF模式也存在着许多问题。和众多其他还在探索中的供应链金融模式相同,RLF模式目前还没有形成成熟的资质审核、信用担保、风险防控等