论文部分内容阅读
一般细粒度图像分类只关注图像局部视觉信息,但在一些问题中图像局部的文本信息对图像分类结果有直接帮助,通过提取图像文本语义信息可以进一步提升图像细分类效果。我们综合考虑了图像视觉信息与图像局部文本信息,提出一个端到端的分类模型来解决细粒度图像分类问题。一方面使用深度卷积神经网络获取图像视觉特征,另一方面依据提出的端到端文本识别网络,提取图像的文本信息,再通过相关性计算模块合并视觉特征与文本特征,送入分类网络。最终在公共数据集Con-Text上测试该方法在图像细分类中的结果,同时也在SVT数据集上验证端