论文部分内容阅读
随着计算机与网络信息技术的快速发展,数据的数量和规模呈现出空前的增长速度,为我们带来了一个数据膨胀、信息爆炸时代。一方面,现有数据从TB级向PB的急剧增长使得数据在规模上已超于人类分析和获取知识的能力。另一方面,数据量的爆炸式增长使传统的知识获取方法显得束手无策,但是不断丰富的数据蕴含信息给人们带来了更多有价值的知识。如何对现实领域中的海量高维数据进行有效的预处理,从而挖掘出潜在有用的知识,已成为当前数据挖掘、计算智能和机器学习的重要研究课题之一。特征选择是数据挖掘中一个重要数据预处理技术。面临着现实中许多复杂环境下数据往往呈现的动态性、不完备性和不精确性等特征,如何高效可行地对数据进行特征选择,是目前特征选择研究面临的巨大挑战问题之一。作为一种刻画不确定性和不精确信息的数学工具,粗糙集理论已被广泛应用到数据挖掘、知识发现和机器学习等领域中,该理论最大的优势是不依赖给定数据集之外的任何先验信息来处理问题,对问题的描述和处理更加客观。因此,利用粗糙集理论方法研究面向动态不完备数据的特征选择有着重要的理论和现实意义。本文在动态不完备数据的现实背景下,在如何快速、有效地获取特征子集结果进而获取动态知识这一实际需求的驱动下,在基于粗糙集理论的特征选择框架下,以增量式更新策略为研究方法,以不完备数据集发生动态变化的三种不同情景为主线,系统地研究了动态不完备数据集下特征子集的增量式更新问题,研究目的以增量式方法为动态不完备数据的特征选择探索有效的途径,为动态数据的知识发现探寻新的理论依据和实现方法。为此,本文以粗糙集理论为研究工具,针对动态不完备数据进行系统的特征选择研究,取得的主要研究成果如下。1)提出不完备数据集中对象集发生增加和删除时正区域的增量式更新机制,在正区域更新机制的基础上,定义特征重要度的度量函数,并设计对象集随时间变化时基于正区域的增量式特征选择算法。相关实验结果验证了提出算法的高效性和可行性。(第二章)2)针对不完备数据集中特征集发生增加和删除情况,通过分析不完备数据集中容差粒度的变化,分别建立特征集增加和删除下正区域的增量式更新机制,并依此分别设计了特征集增加和删除时的增量式特征选择算法。理论分析和相关实验结果都验证了提出算法的高效性和有效性。(第三章)3)提出不完备数据集中特征值发生动态变化时正区域的增量式更新机制,在此基础上,并设计了特征值随时间变化时增量式特征选择算法。特别是当多个对象的特征值发生动态变化时,提出算法可一次性求得特征子集结果,无需重复执行单个对象特征值变化时的增量式特征选择算法来求解特征子集。理论分析和相关实验结果都验证了提出算法的高效性和有效性。(第四章)4)针对不完备数据集中单一特征评估函数在现有特征选择算法中面临的缺点,结合粒度度量准则,从不同角度出发,提出一种基于混合特征评估函数来度量候选特征的区分能力,并设计基于贪心向前搜索的特征选择算法。同时,针对代价敏感的不完备数据集,以混合度量的视角为出发点,提出一种混合评估函数来度量特征子集的质量。在此基础上,为进一步加快特征选择进程,提出一种特征选择中不断减小搜索空间的策略,结合此策略设计了面向代价敏感的高效特征选择算法。相关实验结果验证了提出算法的高效性和有效性。(第五章)