【摘 要】
:
随着数据规模的不断扩大和数据量的爆炸式增长,传统标签技术已不能满足人们现实的需求。各个领域数据表现出不同的特征,在种类上趋于多样化,在价值上趋于低密度化,在来源上趋
论文部分内容阅读
随着数据规模的不断扩大和数据量的爆炸式增长,传统标签技术已不能满足人们现实的需求。各个领域数据表现出不同的特征,在种类上趋于多样化,在价值上趋于低密度化,在来源上趋于分散化,在处理需求上趋于实时化。在传统的单标签数据挖掘中,每个事物样本的分类只属于一个类别。事物与事物之间存在一定地关联,这种关联将原来的一种类别化分为更多的类别。随着多标签技术的发展,不同领域出现了大量表现不一致的多标签机器学习算法,针对不同的领域场景选择合适的算法是提高预测正确性的一种手段。从一阶、二阶到高阶策略多标签学习方法,每阶策略所体现的标签关联也存在极大的差异,其复杂程度呈现显著的变化。为了探讨标签之间地关联,本文选择了一种二阶多标签学习方法,即校准标签排序算法(Calibrated Label Ranking,CLR)。传统的校准标签排序算法利用成对标签关联进行转化来预测结果,该算法的校准是在二元关系算法(Binary Relevance,BR)基础上进行比较而产生结果。其预测对BR产生结果具有一定的依赖性,因此该算法在预测某些数据集具有一定的局限性。当数据的特征和数量不断增加时,直接使用串行方法会出现耗时太久以至于不能及时得到结果。Spark并行计算将有效地减少处理数据时间。因此,本论文提出了一种基于Spark并行计算的校准标签排序方法。主要内容如下:1、为了更好的区分标签的相关性和不相关性,提出了一种用于标签边界域的校准方法,对处于相关性标签和不相关性标签的边界部分采用贝叶斯概率进一步的校正,从而提高边界域部分分类的准确性。基于朴素贝叶斯校准的标签排序方法(Calibrated Lable Ranking Method Based On Naive Bayes,NBCLRM)与校准标签排序等7种传统的方法进行对比,实验结果表明,本文提出的算法不仅可以根据需求修改阈值ε和μ来调节预测结果,而且能够有效的提升传统多标签学习方法的性能。2、Apache Spark是一种流行的用于大规模数据处理的开源平台,非常适合于迭代机器学习任务。基于朴素贝叶斯校准的标签排序方法与Spark分布式并行计算框架相结合,利用Spark的优点能有效解决了本文算法在大规模数据集上运行时间长,执行效率低的问题。
其他文献
复杂动态网有大量的应用,同时由于其复杂性也有许多值得研究的问题和现象,其中同步现象在自然界及人造系统中被广泛地发现,也被广泛地研究,随着越来越多复杂情况被考虑,同步模式也越来越丰富。本文主要研究了三类时变复杂动态网的同步问题,针对系统中存在的未知时变参数,采用自适应的方法使系统达到同步。本文共分为六章,其中第一章概述了复杂动态网及其应用,并介绍了相关研究进展,第二章简要介绍了本文需要的基础知识,第
华蓥西地区石炭系的油气勘探已经开展了几十年,但一直未取得重大突破。为此,有必要开展地层、沉积相、气源、储层、圈闭、保存等成藏条件的研究工作,旨在分析天然气成藏条件优劣,准确评价华蓥西地区石炭系勘探前景。本论文以碳酸盐岩储层地质学、石油地质学、构造地质学和地震地层学等学科理论和方法,充分利用钻井、试油、测井、地震及分析化验等资料,结合野外露头和区域研究成果,对石炭系天然气成藏条件及有利勘探区带预测开
μ基理论源于动曲线曲面方法,因为它特殊的代数与几何性质,成为研究曲线和曲面表示及相关性质的重要代数工具。在几何造型领域中,有理曲线曲面的近似表示问题是近三十年来众多学者研究的热点之一。本文主要利用稀疏近似μ基理论来实现对有理曲线及直纹面的近似表示。针对于有理曲线的近似表示,本文在近似μ基的基础上,提出了稀疏度的概念,确定了稀疏μ基这一定义。然后通过系数权重的比较,确定稀疏μ基表达结构中基的位置,给
非均匀的栖息地对种群分布及动力学性质有显著的影响,从数学上理解这些复杂的影响是有意义的,且具有一定的挑战性。周期环境是一类最简单的非均匀栖息地,其对种群动力学的影响受到学者的广泛关注。如何从数学上来刻画环境的周期性,进而来研究周期性对种群的影响,具有理论和应用价值。一维离散格点上的周期环境是一类理想化的环境。本文拟探索该环境对一类具有阶段年龄结构种群动力学的影响,特别是周期环境和阶段结构对动力学性
上海都市现代农业在全国居于领先地位,依托城市、服务城市,通过集聚现代农业先进生产要素,在生产、生活、生态多方位的功能开发上取得一系列重大进展。为适应上海城市发展对
生物微晶玻璃被认为是可应用于骨组织工程等领域良好的生物材料,氟磷灰石微晶玻璃是研究热点之一。目前对其析晶机理,生物相容性的研究不够成熟,因此研究氟磷灰石微晶玻璃析晶机理,生物相容性具有重要的现实意义。此外,在面对不同的性能需求时,传统制备方法需要通过更改配方来获得不同晶相的微晶玻璃,可控性差,操作复杂,耗能高。因此探讨改变基础玻璃粒度获得磷灰石复相微晶玻璃,再通过掺杂氧化锆,烧结后获得磷灰石多相微
随着大数据时代的来临,海量的样本量为我们的日常生活带来了更多的便利。例如在基因组学中,全基因组测序的价格相比以前有大幅下降。在监控视频分析、生物医学成像、零售、社交媒体分析和高频金融等其他领域也是如此。数据可以更大规模、更廉价地生产和存储的现有趋势很可能在未来得到保持,甚至加速。这一趋势将对商业、工程和科学产生深远的影响。例如科学进步正在变得越来越受数据驱动,研究人员将越来越多地认为自己是数据的消
神经网络系统已经有了相当成熟的研究,随着生活生产和实际问题复杂性的增加,简单网络已经无法满足要求,而复杂网络结构逐渐成为各个学科研究的热门,复杂网络的状态可以由耦合的方式来表达,即耦合系统。该系统适用于复杂的实际问题,而系统的价值取决于其动力行为和外在条件,其稳定性受许多的外界条件干扰,时间延迟、随机输入以及耦合系统结构本身等。耦合系统结构不是固定不变的,加入时间延迟和随机部分等,可以更好地描述遇
本文考虑三维螺旋对称的MHD方程在整个空间中的粘性消失极限问题.假设初始值(uv,bv)是散度为零的螺旋向量场,当初始值属于L2时,证明了弱螺旋对称解的全局存在性;当初始值属于Hper 1时,利用能量不等式提高了解的正则性,从而证明了强螺旋对称解的全局存在唯一性.在证明粘性消失极限的过程中,为了克服涡量拉伸项的困难,我们利用对螺旋向量场的分解:u=U+ηξ/|ξ|2,得到了所需的先验估计,从而得到
分数阶微分方程主要在物理学的基础上发展而来,其在刻画生物学、化学、物理学和热学等系统领域已有很丰富的应用,因而选用简便高效的方法得到各分数阶微分方程的解是很有必要的.我们知道谱方法的发展已经有较长远的历史,它成为计算微分方程高精度解的重要工具.基于此本文利用谱配置法来求解耦合时间分数阶Nernst-Planck方程.本文采用Jacobi谱配置法求解时间分数阶Nernst-Planck方程,首先通过