面向动态不完备数据的特征选择模型与算法研究

来源 :北京交通大学 | 被引量 : 11次 | 上传用户:liuqinggang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与网络信息技术的快速发展,数据的数量和规模呈现出空前的增长速度,为我们带来了一个数据膨胀、信息爆炸时代。一方面,现有数据从TB级向PB的急剧增长使得数据在规模上已超于人类分析和获取知识的能力。另一方面,数据量的爆炸式增长使传统的知识获取方法显得束手无策,但是不断丰富的数据蕴含信息给人们带来了更多有价值的知识。如何对现实领域中的海量高维数据进行有效的预处理,从而挖掘出潜在有用的知识,已成为当前数据挖掘、计算智能和机器学习的重要研究课题之一。特征选择是数据挖掘中一个重要数据预处理技术。面临着现实中许多复杂环境下数据往往呈现的动态性、不完备性和不精确性等特征,如何高效可行地对数据进行特征选择,是目前特征选择研究面临的巨大挑战问题之一。作为一种刻画不确定性和不精确信息的数学工具,粗糙集理论已被广泛应用到数据挖掘、知识发现和机器学习等领域中,该理论最大的优势是不依赖给定数据集之外的任何先验信息来处理问题,对问题的描述和处理更加客观。因此,利用粗糙集理论方法研究面向动态不完备数据的特征选择有着重要的理论和现实意义。本文在动态不完备数据的现实背景下,在如何快速、有效地获取特征子集结果进而获取动态知识这一实际需求的驱动下,在基于粗糙集理论的特征选择框架下,以增量式更新策略为研究方法,以不完备数据集发生动态变化的三种不同情景为主线,系统地研究了动态不完备数据集下特征子集的增量式更新问题,研究目的以增量式方法为动态不完备数据的特征选择探索有效的途径,为动态数据的知识发现探寻新的理论依据和实现方法。为此,本文以粗糙集理论为研究工具,针对动态不完备数据进行系统的特征选择研究,取得的主要研究成果如下。1)提出不完备数据集中对象集发生增加和删除时正区域的增量式更新机制,在正区域更新机制的基础上,定义特征重要度的度量函数,并设计对象集随时间变化时基于正区域的增量式特征选择算法。相关实验结果验证了提出算法的高效性和可行性。(第二章)2)针对不完备数据集中特征集发生增加和删除情况,通过分析不完备数据集中容差粒度的变化,分别建立特征集增加和删除下正区域的增量式更新机制,并依此分别设计了特征集增加和删除时的增量式特征选择算法。理论分析和相关实验结果都验证了提出算法的高效性和有效性。(第三章)3)提出不完备数据集中特征值发生动态变化时正区域的增量式更新机制,在此基础上,并设计了特征值随时间变化时增量式特征选择算法。特别是当多个对象的特征值发生动态变化时,提出算法可一次性求得特征子集结果,无需重复执行单个对象特征值变化时的增量式特征选择算法来求解特征子集。理论分析和相关实验结果都验证了提出算法的高效性和有效性。(第四章)4)针对不完备数据集中单一特征评估函数在现有特征选择算法中面临的缺点,结合粒度度量准则,从不同角度出发,提出一种基于混合特征评估函数来度量候选特征的区分能力,并设计基于贪心向前搜索的特征选择算法。同时,针对代价敏感的不完备数据集,以混合度量的视角为出发点,提出一种混合评估函数来度量特征子集的质量。在此基础上,为进一步加快特征选择进程,提出一种特征选择中不断减小搜索空间的策略,结合此策略设计了面向代价敏感的高效特征选择算法。相关实验结果验证了提出算法的高效性和有效性。(第五章)
其他文献
数字医学图像的应用随着计算机技术在医学领域的推广占据了诊断过程中的重要地位。由此引发的版权和篡改问题也日益引发关注。数字水印技术能够为医学图像的版权保护和篡改检
存在主义在20世纪盛行有独特的社会历史背景,而加缪作为独特的存在主义者有其自己的主张与见解。通过加缪的创作,我们可以从中窥探出他的存在主义哲学思想。而《鼠疫》和《局
产品内分工与贸易的迅猛发展是当前经济全球化最显著的特征之一。而对产品内贸易程度的准确测度是深入分析相关问题的基础。本文就国际上有关产品内贸易的测度方法进行了系统
目的评估以免疫比浊法测定结合珠蛋白(Hap- toglobin,HP)的分析性能。方法HP采用中生北控公司出品的试剂盒进行测定,评价的方法学指标为精密度、线性范围、干扰实验、检测限
会议
<正> 1988年8月~10月,我地区流行结膜炎,本科接诊了千余病例。现将其中应用自拟夏珠银菊汤内服、配合滴眼液点眼、进行观察治疗的126例报告如下。一、临床资料本组126例中,男6
我国持续发生的雾霾天气引发了社会各阶层关于如何应对城市环境恶化的讨论。在城市环境恶化法律治理模式的对比性分析中发现,科技法律治理城市环境恶化是可行的,但当下在立法
图像模式识别的主要挑战在于如图像检索和理解等不断变化的高层次处理要求、难于表达的图像内容以及图像表达的数宇阵列与通常可以被人类所接受的概念化内容之间的语义鸿沟。
《市场调查与分析》课程具有与实践紧密联系的特点,注重学生实际操作能力的培养,在授课过程中需引入案例教学法,帮助培养学生的创新能力以及解决实际问题的能力。本文分析了
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在信息技术日益快速发展的今天,互联网得到了普及,并在人们的工作与生活中得到了普遍的应用。在互联网用户快速增长、网络规模不断扩大的背景下,网络流量也是出现了迅猛的增