论文部分内容阅读
现在是一个大数据时代,而且每时每刻都在产生新数据,如何高效的从数据中挖掘出有价值的信息已经成为一个热门研究。粗糙集以其挖掘知识的客观性,被广泛应用于数据挖掘中。由于经典粗糙集只能处理离散型数据的局限性,胡清华将经典粗糙集扩展到邻域粗糙集。为了高效的处理动态数据,本文从邻域粗糙集的信息观出发,主要创新点如下:(1)在邻域粗糙集中,通过分析论域下某样本邻域中其他样本与该样本决策属性值的异同,定义了不一致邻域矩阵。研究发现,在现有条件属性基础上,利用不一致邻域矩阵可以缩小属性增加后的搜索范围。因此计算属性重要度时,减少了在原条件属性基础上增加一个属性后条件熵的计算时间。并找到了邻域系统下条件熵和正域的关系,得到其性质和定理,它们可以加快算法的收敛速度,因此提出了一种信息观下基于不一致邻域矩阵的属性约简算法。(2)针对实际数据的动态性,样本增加后,原约简集可能已不再有效,需要对其动态更新。邻域决策系统中现有的增量算法都是从代数观下分析其变化情况,本文从信息观出发,详细分析了增加样本后,条件熵的变化机制,以及其对约简集的影响规律,发现只有新增样本不一致邻域中的样本才会引起条件熵的变化,相继引起了约简集的变化。提出了一种信息观下增量式属性约简算法,该算法只需针对新增样本及其不一致邻域进行约简,有效地避免了重复约简,从而快速求得更新后的约简集。(3)将本文提出的属性约简算法应用到场景图像目标检测的特征选择中,针对Hog高维特征的特点,分析提取Hog特征的原理,通过级联约简对Hog特征进行选择。