基于标记依赖关系的多标记学习算法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户：heephy

【摘要】

：

多标记分类是机器学习和数据挖掘中一个重要的研究问题,其目的是为了预测实例同时具有的多个标记。在大多实际应用中,实例的多个标记之间存在着潜在的依赖关系,发掘其中蕴含

【作者】

：

付彬

【出处】

：

北京交通大学

【发表日期】

：

2016年01期

【关键词】

：

数据挖掘分类学习多标记分类标记依赖关系标记排序

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多标记分类是机器学习和数据挖掘中一个重要的研究问题,其目的是为了预测实例同时具有的多个标记。在大多实际应用中,实例的多个标记之间存在着潜在的依赖关系,发掘其中蕴含的有用信息往往能够有效地提高分类模型的学习性能。因此,如何学习和利用标记间的依赖关系,已经成为当前多标记分类学习领域的关键问题之一。本文首先对研究现状进行了总结,分析了现有方法的优缺点。接着,探索了学习和利用不同类型和应用场景下的多标记间依赖关系的多种途径,提出了多种更加有效的多标记分类模型和算法。本文取得的研究成果主要如下：(1)分类器链等模型往往随机地为每个标记确定其所依赖的其它标记,因此可能获得与实际不符的结果。为解决这一问题,本文提出了一种利用树型贝叶斯网络来表示标记间依赖关系的方法。该方法通过明确度量多标记间依赖程度的大小,来构建一个以标记为节点,标记间依赖程度大小为权重的网络结构,从而能够合理地确定多标记间的依赖关系。进一步,还利用集成学习技术构建了多个可能的标记间依赖结构,从而能够更充分地考虑多标记间的相互依赖关系。实验结果验证了该算法的有效性,这表明通过度量标记间的依赖程度大小并充分考虑标记间的相互依赖关系,能够进一步提升分类模型的性能。(2)提出了一种利用图结构表示标记间的依赖程度,并将多标记间依赖关系的迭代传播表示成在图上的随机游走过程的多标记学习算法。该方法首先构建了标记间的图结构,并利用重启动随机游走模型来模拟标记间依赖关系在图中的迭代传播过程。对给定测试实例,该方法首先给出各标记为其真实标记的初始概率,然后采用类似PageRank的方法迭代地更新各标记的值直到收敛为止。这种迭代重复更新的过程使得,各标记不仅能考虑和其有直接依赖关系的标记对其的影响,也能考虑其它间接的依赖关系。实验结果表明,该算法在多种评价标准下都明显优于其它对比算法,尤其当数据集具有较多的标记时。这表明,考虑标记间依赖关系的迭代传播,能够更为有效地发掘和利用其中潜在的有用信息。(3)在上一种方法的基础上,进一步提出了一种能够考虑多种潜在因素,并通过最优化给定的目标函数来学习多标记间最优的依赖程度的多标记学习算法。该方法利用了多核学习的思想,首先基于不同的依赖关系定义,从不同方面给出了标记间依赖程度的多种度量结果,然后以这些度量为输入利用线性模型学习标记间的最终依赖程度。该方法的优势包括：一是能够综合考虑从不同角度出发的标记间依赖程度的度量；二是其通过最小化分类模型所采用的损失函数来估计线性模型的参数,因此能够学习到对当前分类任务最优的标记间依赖程度。实验结果表明,通过优化目标函数而学习到的标记间依赖关系和程度,和上一种方法等对比算法相比,该方法能明显地提升相应分类模型的性能。(4)针对弱标记和存在大量标记的问题,本文基于矩阵分解模型提出了一种学习最优的标记排序的方法。该方法能够将原标记空间映射到一个低维空间,从而能够显著地减少标记个数并因此降低计算量。对训练集中的每个实例,都可以获得两个标记集合：已经明确给出的标记,和其它没有明确给出的标记。现有方法中大多假设,若标记没有明确给出则即为实例的非相关标记(非1即0)。为避免该假设可能引入的错误信息,本文所提方法仅假设,对每个实例,和没有明确给出的标记相比,那些明确给出的标记更应该是实例的相关标记。相应地,该方法设计了一种类似AUC曲线的损失函数,并通过优化该损失函数使得在为实例预测的标记排序中,那些明确给出的标记都尽量排在没有明确给出的标记之前。因此,该方法能够在存在弱标记的情况下,充分利用标记间的依赖关系来产生一个更为合理的标记排序。实验结果验证了该方法在特定数据集合上有着更好的性能。以上研究成果从利用不同类型的标记依赖关系的角度出发,提出了相应的学习方法和模型并通过实验验证了其有效性,为实际应用和进一步研究奠定了良好的基础。

其他文献

两岸大学生公益广告接触、记忆及态度比较研究——基于北京和台北两所高校的调查

本论文基于对北京、台北两所大学的问卷调查,从公益广告接触频率、公益广告接触渠道、印象最深的公益广告、对公益广告整体效果的评价、当前公益广告存在的问题等方面进行了

期刊

海峡两岸公益广告大学生

基于广义KYP引理的有限频域分析与综合

实际控制系统的各环节(如传感器、执行器、被控对象等)往往只具有有限的响应带宽,同时工程中的许多实际信号(如地震波、阵风扰动等)也只在某个或某些频率范围内含有较大的能

学位

广义Kalman–Yakubovich–Popov引理有限频域指标鲁棒控制与滤波模型降阶二维和时滞系统风机减载

小型水利工程质量控制难点及对策研究

水利是民生大计,其建设的核心问题就是质量控制,尤其是小型水利工程,环境复杂,受到各种因素的困扰,具有一定的施工难度。所以,在小型水利建设过程中,一定要严格遵守施工程序,

期刊

水利工程质量控制难点与措施

自动扶梯或人行道“剪刀口”防护挡板安全之探讨

针对当前自动扶梯或自动人行道交叉口（以下简称“剪刀口”）安全隐患整治工作，阐述国家标准对防护挡板的相关规定，并对整治工作中遇到的一些特殊情况进行了汇总和分类。最后给出了

期刊

自动扶梯自动人行道剪刀口防护挡板危险源

以务实的态度通过社会实践提升大学生的专业技能

该文深入分析了大学生社会实践的现状和存在的问题,阐述了新时期社会实践对大学生专业技能培养的重要意义,提出应转变思想观念,以务实的态度改进大学生的社会实践,加强大学生

期刊

高等教育大学生社会实践专业技能

再见老朋友

<正>'书中自有黄金屋,书中自有颜如玉。'我曾经挑灯夜读也未尽兴的是书,曾经驻足一角不顾一切地读的也是书……那么多的曾经,只因为我发现了读书是一种快乐,是一种享

期刊

黄金屋颜如玉对我说告诉我不知道浪漫情调折角一本

Wnt7a通过激活经典Wnt通路促进膀胱癌细胞侵袭

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

Wnt7a膀胱癌侵袭Wnt信号通路MMP10

《吴鞠通医案》血证辨治规律探究

本文通过对《吴鞠通医案》血证相关的医案篇目中处方的整理统计,总结出吴鞠通对血证的辨治规律,分别详论黄土汤法、活肝络法、建中法、复脉法、清上焦法、通补胃阳逐痰饮法、

期刊

吴鞠通吴鞠通医案血证

交变流动中压力速度之间相位差对突变截面损失的影响分析

从弱非线性热声理论出发,给出交变流动中突变截面阻力系数的定义以及考察方法。通过PIV（粒子成像测速仪）测量与CFD计算结果的对比,验证了CFD计算结果的可靠性。进而利用CFD模拟

期刊

热声热机突变截面交变流动局部损失CFD模拟PIVThermoacoustic engine Sudden area change Oscillati

基于标记依赖关系的多标记学习算法研究

其他学术论文