论文部分内容阅读
场景图像分类是计算机视觉领域的一个重要问题,利用计算机和各种图像处理技术实现快速、准确的场景图像分类已经成为当下图像研究的热门方向,在图像检索、视频检索、医疗卫生、安全监控等得到了广泛的应用。BOW模型将图像看成是一个文档,由若干个视觉词汇组成。通过将局部图像块的特征转化为视觉词汇,并对视觉词汇进行统计得到图像的描述。这种方法简单有效,非常适合用作图像的表示。因此,本文主要研究基于BOW模型的场景图像分类,并对其中的主要模块进行改进。首先,在特征提取部分,针对传统SIFT算法中存在计算复杂、特征向量维数过高等问题,提出了一种新的局部特征描述子:GPCA-SIFT。该描述子将PCA-SIFT特征提取算法和GPCA图像压缩方法有效结合,保留了图像像素点的空间位置信息,表现出很好的独特性和鲁棒性,同时提高了场景图像的分类性能。其次,在字典构建部分,通过引入一种基于密度的快速聚类算法,提出了一种改进的基于密度的K-means聚类算法,很好地确定了初始聚类中心的位置,弥补了传统K-means算法的不足,保证了聚类结果的稳定性和一致性。最后,在特征编码阶段,比较了矢量量化、稀疏编码以及局部约束线性编码方法,并在此基础上提出了一种改进的基于直方图交叉的局部约束线性编码。通过引入直方图交叉函数,改善了编码的性能,提高了场景图像的分类正确率。