论文部分内容阅读
随着互联网技术和智能硬件设备的高速发展,丰富的多媒体数据出现在网络上。视频和文本作为两类重要的媒体信息载体,是多媒体信息处理领域中的重要研究对象。嵌入学习在多媒体数据存储、检索和分类等领域已被广泛应用,其旨在发掘并利用数据的本质特性生成其对应的低维向量表示。论文以近重复视频检索和跨域情感分类为研究课题,提出一些新颖的基于嵌入学习的视频和文本表示方法,挖掘数据的内容信息并生成准确的数据签名。 近重复视频检索主要研究如何搜索与查询视频相同或相近的视频,其核心任务是视频信息的准确提取与表示。它是多媒体信息处理领域中一个重要的研究课题,其相关应用包括视频搜索、视频推荐和版权保护等。随着网络视频数量的增加,除了传统的准确性指标外,许多近重复视频检索系统越来越关注系统的高效性和可扩展性。跨域情感分类的任务是通过依靠源域中的监督数据来获得能够适用于目标域的情感分类器,其主要研究如何减小不同领域间单词分布的差异和如何生成准确描述文本数据的签名。 为了解决上述问题,同时考虑视频和文本数据的特性,论文提出了基于嵌入学习的数据表示方法,包括三种用于近重复视频检索的哈希方法和一种用于跨域情感分类的嵌入方法。本论文的主要工作总结如下: 1.基于高斯分布的随机多视角哈希方法 为了提高大规模近重复视频检索的准确率和速度,论文采用基于高斯分布的随机多视角哈希方法将多种视频关键帧的底层特征进行融合,并结合关键帧间的结构信息和可利用的监督信息,生成视频的最终哈希码序列表示。该方法通过最大化广义的检索准确率和召回率来学习可靠的映射函数。并且,方法采用复合的Kullback-Leibler(KL)散度测度来近似估计此检索分数,其随机地匹配了原始特征空间和准哈希码空间的近邻结构。实验结果表明,与其他近重复视频检索方法相比,本文的方法获得了更好的检索性能和更高的检索效率。 2.基于t分布的随机多视角哈希方法及其深度哈希扩展 为了提升非监督学习的鲁棒性,论文提出基于t分布的随机多视角哈希方法。该方法采用基于高斯估计获得的连续相似度和基于互惠邻居获得的离散相似度来融合多种视频特征,并通过最小化原始特征空间和准哈希码空间的概率相似度结构的KL散度来学习哈希函数。为了减小远距离映射对象对尺度变化的敏感性,方法采用学生t分布来估计关键帧的准哈希码向量间的相似度,以便将原始空间中的非监督近邻结构更准确地保存到准哈希码空间中。此外,为了思考非监督深度学习的问题和促进大规模检索的发展,论文将该方法扩展到非监督的深度学习上。通过应用相同的优化目标方程和构建基于一个深度神经网络的哈希映射函数,开发一种用于训练深度哈希网络的鲁棒非监督的训练策略。 3.基于嵌入的跨域情感分类方法 为了实现跨域情感分类任务,论文提出一种基于嵌入的文本映射方法。该方法采用若干个轴点(pivot)连接源域和目标域,通过构建三个概率相似度匹配模型来学习文本数据的映射函数,并最终生成两个领域中单词和文档数据的嵌入向量表示。轴点被用来减小源域和目标域中单词分布的差异,而三个概率相似度匹配模型则被用来保存文本数据在原始特征空间中的近邻结构关系到生成的嵌入空间中。情感分类的实验结果验证了本方法的效率和有效性。