论文部分内容阅读
图像分类技术是计算机视觉领域中最重要和最具挑战性的研究课题之一,在图像检索,视频检索,医学应用等领域得到了广泛应用。近年来,众多学者对图像分类技术进行了深入的研究,视觉词袋(Bag-Of-Visual words,BOV)模型则是其中最成功、应用最广的一种图像分类模型。然而传统视觉词袋模型下的图像分类技术还有一些不足之处,本文将从以下几个方面对其改进:1.针对传统视觉词袋模型中视觉词典的规模过大与判别力差的问题,提出了一种加权最大相关最小相似(Weighted-Maximal Relevance-Minimal-Semantic similarity,W-MR-MS)视觉词典优化准则。首先提取图像的尺度不变特征转换(SIFT)特征,并用K-Means算法对特征聚类生成原始视觉词典;然后计算视觉词典中视觉单词与图像类别的相关性和视觉单词间的语义相似性,并引入一个加权系数综合两者对图像分类的重要程度;最后通过删除视觉词典中与图像类别相关性弱,且视觉单词间语义相似性大的视觉单词,从而达到优化视觉词典的目的。实验结果表明,采用优化后的视觉词典对图像进行分类提高了图像的分类性能。2.针对视觉词袋模型中图像局部特征空间分布信息的缺失与图像分类的语义性差的问题,提出一种基于概率潜在语义分析(PLSA)与视觉短语的图像分类方法。首先用W-MR-MS准则对视觉词典进行优化,并在优化视觉词典的基础上建立视觉短语,进而增加图像局部特征的空间分布信息;然后结合该视觉短语与优化视觉词典中的视觉单词,构建一个新的语义视觉词典;最后基于该语义视觉词典,采用PLSA对图像建立模型,挖掘出图像中更具语义性的潜在主题。实验结果表明,结合了视觉短语与PLSA模型的方法提高了图像的分类性能。