论文部分内容阅读
为了减少图像描述对成对的图像-描述数据集的依赖,提出了一种在非成对数据集下的图像描述方法。针对初始描述缺乏对图像细节部分的描述和图像语义描述的精度和泛化能力低的问题,使用融合关联注意力机制的语言生成器对初始图像再生成,关联注意力机制能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测。使用强化学习中的策略梯度方法改造损失函数对语言生成器微调,得到最终描述。实验结果表明,即使不使用成对的图像-描述数据集生成的描述也能准确描述图像内容,语言也更加自然。