论文部分内容阅读
随着网络通信的飞速发展和图片共享网站的普及,互联网上的图片数量呈现爆炸式增长。然而,这个庞大的数据集合是杂乱无章,并且含有大量冗余和噪声。如何快速准确并且自动地从这样一个大规模图片集合中浏览和获取用户所需信息,已经成为迫切需要解决并且富有挑战性的问题。图像数据集自动摘要技术能够从原始的大规模数据集合中自动选取少量具有代表性的图像数据构成视觉摘要,以引导用户快速浏览或查询。本文主要从图像集摘要的代表性、多样性和自动性的角度出发,围绕着摘要产生过程中的几个关键技术进行了深入研究,具体包括图像特征描述、特征匹配和自动聚类。本文主要的研究工作和创新之处如下:(1)针对SIFT特征描述矩阵维度过高计算复杂的问题,采用加权的同心圆邻域代替方形邻域描述特征点,简化特征描述矩阵。引入了几何校验RANSAC算法对匹配点对进一步提纯过滤。为了降低RANSAC过高的时间代价,通过最优匹配点构建小样本集拟合变换矩阵,在有效的滤除误匹配对的同时,大幅降低了RANSAC的拟合时间,提高了运算效率。(2)提出了一种基于空间约束的SURF匹配优化算法,通过最优匹配点对构成旋转坐标系构建空间矩阵,并结合简化的RANSAC实现对匹配点对的几何校验,实现了高匹配精度的快速SURF图像匹配。(3)针对ATTA蚁群聚类算法易陷于局部最优解的缺点,提出了一种基于桶的ATTA蚁群自动聚类算法,通过ATTA算法对数据进行初步自组织聚类处理,然后结合桶聚类的思想,将初步区域成簇的数据映射到桶中,通过判别目标函数实现桶的合并和分裂,最终实现全局寻优的目的。(4)提出了一种基于有效性指标的AP自动聚类算法,结合聚类分析定义和相似对象分类一致性原则,设计了一种基于AP聚类的聚类有效性指标。针对在大规模数据集时的最佳聚类数搜索方法计算量巨大以及内存消耗大的问题,提出了一种快速最佳聚类数搜索方法。在原始大数据集中抽取几何密集数据构成代表数据集,根据AP聚类自身独特的偏向参数决定聚类数的特点,在代表数据集上运行AP算法搜索最佳偏向参数,从而获得原始数据集的最佳聚类数。该方案鲁棒性强,可以结合各种有效性指标实现大规模数据集的最佳聚类数确定。结合基于空间约束的SURF算法和基于有效性指标的快速AP聚类算法,设计了一种大规模图像集自动摘要生成模型。