多媒体数据挖掘中的跨数据域学习

来源 :浙江大学 | 被引量 : 0次 | 上传用户:e56urty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘和机器学习领域中,监督学习模型一直有着广泛的应用。然而,模型中需要用到的监督信息,即有标注的数据往往较难大规模地获得。而对数据进行标注,往往需要大量的人力、物力。为了解决研究问题中标签信息匮乏的困难,专家学者们提出了迁移学习的概念。在迁移学习问题中,研究对象所组成的数据集被称为目标域,有充足标签信息并能起辅助学习作用的相关数据集被称为辅助域。为了解决各种实际问题,研究人员致力于从辅助域里学习所需要的知识,以帮助目标域里模型的学习。本论文深入分析了跨数据域迁移学习问题,并在研究大量国际经典文献工作的基础上,提出了多种跨数据域迁移学习分类模型和算法。本文的主要工作和创新点在于:  1.提出了一种基于流形的鉴别迁移学习分类模型。我们观察到现有的很多跨数据域文本分类的方法,都采用了联合矩阵分解模型来学习各个数据域的低维因子。然而,由于矩阵分解模型着重挖掘的是数据内在的聚类结构,这些算法普遍忽视了数据因子在分类任务中理应具有的鉴别属性。为了解决这个问题,我们将分类模型施加在学习所得的数据因子上,并以损失函数为调节项对因子进行进一步的优化。此外,这些基于矩阵分解的迁移学习算法学习得到的数据因子在不同域之间还是存在很大的差异性。我们在数据各个维度的因子上引入刻画域间差异性的统计度量,并且以最小化这种差异性为目标,进一步优化所得的数据低维因子。  2.我们提出了一种跨数据域分类模型:通过学习各个数据域共享的子空间来实现知识的迁移。在这个模型中,我们提取了各个数据域中特征上保持稳定的代表性数据,并以这些数据来构建子空间的基向量。另一方面,为了加强不同域的数据在这个子空间中的统计相似性,我们通过最小化域间差异性,对子空间中的数据因子进行了进一步的优化。  3.提出了一种融合数据多视角信息进行跨数据域分类的算法。在算法中,我们鉴别地提取了不同域的数据的多视角特征,将那些反映类属本质的特征保留了下来。我们在提取的特征上引入刻画域间差异性的统计量,通过最小化域间差异性对特征进行优化。进一步,我们在语义类别的全局结构和数据的局部几何结构上对标签的预测结果进行了约束,最终提高了目标域中的分类准确率。
其他文献
龋病是发生在人类牙体硬组织上的慢性进行性感染性疾病,是人类发病率最高的细菌感染性疾病之一。而目前单纯的机械刷牙很难有效地达到清洁牙齿促进牙齿在矿化的目的,因而需配合
随着网络覆盖范围和应用环境的不断变化,原有固定网络已不能满足动态网络的即时需求,需要一种新的通信模式来进行适时交换和通信,这就是移动自组网(Ad hoc)。移动自组网中的
对蒙药楚杜木·敖格嘎尔进行文献报道,该药的化学成分、药理作用及临床应用等方面的文献综述,并提出具体应用中存在的问题及如何临床上使用。
为克服目前药用级无水碳酸钠制备方法使用的试剂不能产业化,成本高,纯化得到的无水碳酸钠不能达到药用级质量标准的问题,本研究提出一种试剂廉价易得,工艺过程简单,适合大规模生产
基于内容的信息检索是新一代(第四代)人机交互中的重要环节,本文围绕基于内容的图像检索系统的构建,重点对图像底层特征提取,相关反馈技术以及高层语义分类和检索等方面进行了研
他汀类药物被广泛的应用于冠心病的一级、二级预防治疗,且可以显著地减少心血管不良事件的发生,但近年来,他汀类药物对糖代谢的影响逐渐备受人们的关注,而流行病学调查也显示长期
目前牙周治疗的主要目的仍然在于阻止病变进展。为了达到这一目的,机械性非手术清除菌斑疗法成为主要手段。根面平整术是牙周治疗的重要手段。该手术旨在通过去除各种刺激物,提
信道编码技术和智能天线的波束成形技术由于可以有效地改善通信质量,增加系统抗干扰能力,在通信领域得到了广泛的关注。其中,信道编码技术的研究自1948年香农提出编码理论以来,已
自然辩证法使用哲学的原理来解释自然科学。自然科学揭示了自然界的辩证规律,只有辩证唯物主义才能给自然科学指出一条通向客观真理的道路。近年来,我国高血压发病成逐年增长趋
脑梗死,主要是指血栓或栓塞引起的脑组织局部血液循环障碍,可导致病灶处缺血缺氧、炎症、凋亡、坏死。目前最理想的治疗方法为溶栓疗法,但其时间窗较小,适用的病例有限。因此,临床