基于变分自编码器的网络大数据挖掘应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wareware1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络中包含大量数据,并且这些数据中蕴含着有价值的信息。网络大数据挖掘是利用数据挖掘相关技术从网络大数据中提取模式和知识,例如从网络中的用户历史行为数据中挖掘用户的兴趣信息、在网络时序数据中识别异常数据。目前研究人员已经成功地将深度学习技术应用于网络大数据挖掘的研究工作中,相比于传统的统计学算法,基于深度学习技术的算法的性能具有显著的提升。变分自编码器是一种深度生成模型,并且已经成功地被研究人员应用于网络大数据挖掘的研究工作中。本论文主要针对网络大数据挖掘问题中的网站推荐问题和网络时序数据异常检测问题进行研究。网站推荐是根据用户的网站浏览历史信息,预测用户在不久的将来可能会感兴趣的网站。网站浏览历史信息是隐式反馈信息,隐式反馈信息的数值可表示置信度,因此隐式反馈信息的数值是推荐任务中的有效信息,但大多已有的推荐算法没有利用这些数值信息。针对上述问题,本文提出基于附带边信息的变分自编码器的推荐算法SI-VAE。在SI-VAE算法中,将用户的网站浏览历史信息的数值信息经特殊的标准化处理后融入到边信息中,推荐模型进行网站推荐时能够利用边信息,从而提升推荐性能。在SI-VAE算法中,对变分自编码器的目标函数进行调整,使变分自编码器更适用于网站推荐任务。实验表明:SI-VAE算法的推荐性能优于已有的基于变分自编码器的推荐算法。网络时序数据异常检测的目标是正确地判定网络时间序列中每个时刻的数据点是否异常。网络时间序列数据的变化受多种因素的影响,而一些非异常因素(例如噪声因素、季节性因素)导致的数据波动会增加异常检测的困难性。针对上述问题,本文提出基于时间序列分解方法和循环变分自编码器模型的网络时序数据异常检测算法D-R-VAE。在D-R-VAE算法中,根据时间序列是否具有周期性,分别采用STL方法和HP滤波法对时间序列进行分解,之后保留时间序列中与异常检测相关的组成部分。在D-R-VAE算法中,利用循环VAE模型在处理后的时间序列上进行异常检测。变分自编码器由神经网络实现,循环VAE模型将变分自编码器中部分全连接神经网络处理层调整为LSTM层或RNN层,因此模型能够从时间序列中获取时序依赖性信息。实验表明:D-R-VAE算法的异常检测性能优于已有的基于变分自编码器的时间序列异常检测算法,D-R-VAE模型在时间序列分解处理后的时间序列上进行异常检测可以有效提升模型的异常检测性能。
其他文献
对人体的生理电信号进行测量是一种能够方便快捷的获知身体健康状况的手段,而测量用的电极质量在很大程度上影响着信号记录的质量。通过引入有源电极可以有效减小干扰,提高信号采集的质量。但是目前的有源电极设计多为一阶滤波模型,存在着过渡带较长、阻带衰减慢的缺点,因此本文提出了一种采用二阶滤波模型的有源电极,能有效克服上述缺点,并对其进行了系统研究。论文的第二章描述了二阶高通滤波模型有源电极的设计方案,对其电
计算机视觉和数字摄影测量技术是实现目标三维信息获取、三维场景复原的重要方法之一。目前,基于该方法发展较为成熟的双目立体视觉技术已广泛应用在摄影测量、城市测绘、文物考察等各个领域中。多基线三维成像方法基于双目立体视觉技术,存在精度随基线增大而提高的规律。但对大纵深真实场景成像时,传统的定基线三维成像方法在不同远近距离上的深度分辨和测量误差呈现非线性变化,随着景深增大,其在成像精度、成像距离等方面无法
蓝牙技术是组建个人局域网时常用的一种技术,蓝牙的基本网络拓补称为微微网,多个微微网之间通过共用某些节点组成了散射网。在散射网中,一个节点在同一时刻只从属于某个特定的微微网,散射网的应用拓展了蓝牙技术的使用场景,例如一对多蓝牙音频传输。在一对多蓝牙音频传输场景下,作为桥节点的音频接收设备需要周期性地加入各音频源设备为主设备的微微网中,频繁切换微微网不仅会造成通信资源浪费,同时更会出现音频传输不同步现
近十年来,深度神经网络(DNNs)作为一种备受关注的技术,它在多种应用场景下快速发展,推动了各种产业化的创新变革和转型,将人工智能更多地带入了人们的生活。伴随着数据量的增加、算力的提升、算法的不断创新以及相关开源框架的普及,DNNs的使用出现了井喷式的爆发增长。目前DNNs被广泛应用于包括智能机器人、自动驾驶、计算机视觉、语音处理在内的诸多领域,并且在这些场景下,DNNs往往能够提供超越人类准确性
常规动态心电图记录仪(Holter),通常会持续地记录心电数据24小时乃至更久,期间使用者呼吸、身体移动和所处电磁环境恶化等,都有可能会降低心电信号记录的质量。在诊断之前应先将记录的噪声干扰严重等没有医学参考价值的低质量数据找出来提前剔除掉。这需要对记录的数据质量进行评估。按通道评估心电数据记录质量的方法,不仅可以用于单通道心电设备数据质量的评估,也可以用于多通道心电设备数据质量的评估。胎儿心电监
太赫兹(THz)波兼具微波和红外波段的谱段特性,在安检成像、天文观测、生物医疗、自动驾驶等方面有着广泛应用前景。太赫兹探测器是太赫兹技术的核心器件,基于集成电路的CMOS太赫兹探测器具有成本低、集成度高、室温检测等优势,在太赫兹探测和成像系统应用中显示出巨大潜力。研究和发展高响应灵敏度(RV)、低噪声等效功率(NEP)、大带宽、低极化选择性的CMOS太赫兹探测器是目前该领域的主要发展方向。本论文基
目前主流的激光雷达测距方案包括三角测距法、飞行时间(TOF)测距法、调幅连续波(AMCW)测距法等。三角法在远距离探测时,探测误差会呈几何量级增长,并且在阳光直射的情况下,反射光斑通常会淹没在太阳光中,导致探测器无法提取反射光斑,从而使仪器失效。光的飞行速度极快,因此TOF测距方案需要一个非常精细的时钟电路(通常是ps级)和脉宽极窄的激光发射电路(通常是ns级),因此开发难度和门槛较高。AMCW测
氯化聚丙烯对聚烯烃基材具有良好的附着力,广泛用于胶粘剂、涂料、油墨等,为进一步改善与极性材料的粘接,可通过共混或接枝的方式向氯化聚丙烯分子中引入极性基团,而有关环氧树脂改性氯化聚丙烯胶粘剂的研究非常少。另外,聚烯烃复合绝缘子是输电线路用的一类新研发的绝缘子,为解决极性的环氧玻纤芯棒与非极性的聚烯烃护套(伞裙)的粘接问题,本文研究了氯化聚丙烯/环氧树脂胶粘剂的性能,并探索了其在聚烯烃复合绝缘子粘接中
硅烷偶联剂是一类含有两种不同化学性质基团的有机硅化合物,其分子一端是可水解的基团如烷氧基,另一端通过碳链与硅原子相连。硅烷偶联剂可以将性质差异很大的有机材料和无机材料偶联起来,制备出高性能的复合材料。但是在使用过程中,硅烷偶联剂会释放出挥发性小分子化合物,如甲醇、乙醇等,这会对环境和操作人员造成一定的影响。本文的研究目的就是将硅烷偶联剂水解制备出稳定的不含低分子醇的硅烷水溶液,并在水性体系使用。首
掌指关节炎是类风湿性关节炎的一种,具有起病隐匿、发展缓慢的特点,早期的主要临床表现为滑膜炎,该疾病如果不能得到及时的诊治,患者的骨骼会受到影响,临床症状也会由较轻的关节肿胀、疼痛演变为关节病变、关节功能丧失,严重情况下甚至有可能导致残疾。得益于无创伤、成像快、成本低等优点,超声检测已经成为临床上早期诊断掌指关节滑膜炎的主要手段。目前超声图像的阅片、评级工作仍然依靠专业医生人工完成,因而诊断不可避免