论文部分内容阅读
图像理解是对图像内容的语义解释与描述,以图像处理与分析为基础,是计算机视觉、模式识别、认知学、心理学、语言学等多学科交叉的一门综合学科,也是图像工程中一项最重要的高层任务,适用于图像检索、图像标注、图像解析、多模态融合与交互等视觉应用中,具有广泛的应用前景。同时,如何突破“语义鸿沟”,合理地有效地关联视觉信息和语义信息,也是图像理解亟待解决的关键科学问题。
协同学理论描述了自然世界中的实体系统是耗散结构的自组织过程,通过开放环境中不断与外界交换物质和能量信息,实现从非平衡无序状态到非平衡有序状态的演化,而人的视觉认知过程无论从生理上还是逻辑上均具有相似的协同学特性,体现了协作与竞争的特点。因此,研究图像理解中不同视觉层面的协同学理论,不仅可以为解决“语义鸿沟”提供一种可行的语义和视觉之间的相互作用机制,而且可以结合多源信息,实现对图像内容较为完整的全面的描述。
本文分别研究了特征层、实例层以及语义层三个不同视觉层次下对应的实体之间的协同机制,发现不同视觉实体的“共性”与“特性”,通过计算协同涨落力,有效地合并、删除、迁移视觉系统要素,完成非平衡的有序演化,实现目标分割、目标识别、场景分类等子任务,最后达到对图像进行基本句法解释和文字描述的目的。
本文的主要研究工作及创新点如下:
(1)针对图像特征提取的有效性,指出如何使用视觉皮层响应稀疏性、字典局部稀疏性、主题分布的低维流形性,研究了局部线性字典对隐主题分析的有效性,提出一种隐特征协同模型,解决并指导图像分类任务。
(2)针对样本分类中近邻标记不一致性,指出近邻协同分析的重要性,提出一种近邻演化策略实现样本稳定特征的有效获取,研究同时考察了核实例选择和流形实例表示,构建完整的协同学习的识别模型,提升图像分类的准确率。
(3)针对图像语义信息的有效获取,阐述了基于注释的区域标记和基于分类的区域标记生成方法,分析了注释区域语义中的歧义性,提出一种基于语义协同相似度的类属合并与聚类方法,并结合图像注释中的空间关系,利用句法生成,有效解释图像内容。
(4)针对分类区域语义的未知性,采用多类分类分析区域标记的可信度,提出一种方向和范围约束的语境协同描述子,实现未知目标聚类发现,实现完整的图像理解过程范例。