论文部分内容阅读
了解人类视觉注意力对于多媒体应用非常重要。目前已有许多研究试图从眼动追踪数据中学习并构建视觉显著性预测模型。互联网时代以来,网页作为互联网上最核心的应用,已成为人们生活中最常见、最重要的视觉对象。网页的视觉显著性预测能够减少网页设计过程中的人工测试,降低人工成本,也能够辅助网页检索技术提取网页的核心内容,提升检索性能,因此针对网页图像的视觉显著性预测模型研究具有现实意义和应用价值。然而,相比于自然图像,目前针对网页图像视觉显著性预测的相关研究数量较少,现有工作都主要着力于探索更好的特征表达并使用支持向量机来进行显著性预测,而未考虑到网页图像显著性预测问题的两个关键点:(1)网页中包含了比自然图像更加多样化的内容元素,不同元素通常对人眼视觉系统有不同的影响;(2)网页的布局极大地影响了人眼对网页图像的关注区域,不同的网页布局将导致不同的阅读模式继而导致不同的视觉位置偏好。此外,由于视觉显著性预测的标注成本很高,因此现有的已标注数据集规模很小,已公开的FiWI数据集仅包含149张图像,一定程度上限制了深度学习模型在网页图像视觉显著性预测任务上的应用。基于上述网页图像视觉显著性预测问题的两个关键点和数据规模的局限性问题,本文提出了一种新颖的网页图像视觉显著性模型,整个模型基于深度神经网络设计,可以进行端到端的训练和推理。针对上述关键点(1),本文考虑到网页图像中的图片与文字是网页中的主要元素,提出了一种元素敏感的网页显著性模型。其中本文提出了一种多判别区域检测模块和一种文字区域检测模块来分别定位网页图像中的含语义图像区域和突出文字区域,这两个模块提取的特征表示更符合人类的注意力机制,也为模型引入了额外的先验知识。针对上述关键点(2),本文提出了一种具有位置偏好学习的视觉显著性模型框架,并提出使用变分自动编码器和高斯混合模型,将网页布局造成的视觉位置偏好建模为概率分布。在完成对位置偏好的建模后,再训练一个位置偏好学习网络来对位置偏好进行预测,从而为模型中引入受网页布局影响的位置偏好特征,提升模型的预测性能。针对上述数据规模局限性问题,本文针对网页视觉显著性模型提出了一种基于辅助任务的半监督学习算法,提出使用文字区域检测任务和可判别物体检测任务作为辅助任务。这些辅助任务与视觉显著性预测任务具有高相关性,使模型能够利用大量的无视觉显著性标注的网页图像来进行半监督训练,因此避免了深度神经网络对小数据集过拟合,提升了模型的预测性能。本文在公开的FiWI数据集上进行实验,验证了本文提出的模型和算法的有效性。本文提出的具有位置偏好学习的半监督元素敏感网页显著性模型,在多项性能指标上超越了现有的视觉显著性模型,获得了目前最佳的网页图像视觉显著性预测效果。