论文部分内容阅读
过去数十年中,科技飞快的发展,数据存储发生了爆炸性的增长。科学数据、医疗数据、人口统计数据、财经数据和市场数据等等的大量出现,使我们迫切需要找到一种能在这浩如烟海的数据里快速、有效地发现知识的工具和方法。数据挖掘因此应运而生,并成为数据库系统和新的数据应用的一个有希望的、欣欣向荣的前沿学科。数据挖掘为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。图像挖掘就是从大量图像集中,通过综合分析视听特性和语义,发现隐含的有效的、有价值的、可理解的模式,进而发现知识,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。本文的研究思路是从挖掘系统本身的构建入手,就如何提高系统的整体性、更有效地实现挖掘功能做了较为深入的研究,给出了一个基于Web的图像数据挖掘系统的框架结构模型,对其功能模块进行了详细的分析和设计,并设计了图像特征库。该模型首先通过图像检索技术智能化的在Internet上搜索Web页面,然后利用图像特征提取模块将图像数据保存到构建的图像特征库和原始图像库中,再从用户查询界面获得用户的查询要求后,进行图像信息检索,然后利用相关反馈技术提高信息检索的质量,最后将结果传送到用户。本文主要做了以下几方面的研究。1.探讨了数据挖掘和知识发现的基本理论数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术。Web挖掘是从Web资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用与Web,从Web中抽取感兴趣的、潜在的、有用的模式和隐藏信息。2.图像特征库的建立是进行图像数据挖掘的前提。本文讨论了特征库的数据模型和数据类型,详细介绍了颜色、纹理、形状和空间等图像特征的表示方法。该特征库能有效支持基于多种特征的图像检索。3.提出了Web上基于图像特征库的图像数据挖掘系统模型(Image Data Mining Model,简称IDMM),并对各部分的工作机理做了详细的设计.介绍了系统结构、数据平台及主要部件,并讨论了图像数据特征立方体的构建方法。全文共分为六章。第一章绪论首先对多媒体数据挖掘和国内外的研究现状进行了概述,然后对本文的主要研究内容和章节安排作了介绍。第二章探讨了数据挖掘和知识发现的基本理论。第三章讨论了特征库中各种图像特征的数据类型,详细介绍了颜色、纹理、形状和空间等图像特征的表示方法。第四章阐述了多媒体对象查询语言MOQL,以及各种图像特征的近似匹配方法。第五章提出了建立在图像特征库之上的图像挖掘系统模型,介绍了