【摘 要】
:
粗糙集理论是一种有效的数据分析工具,它可以处理不确定、不精确、不完备、不一致的数据。然而,经典粗糙集理论是基于严格等价关系的,在处理实际应用中的数据时具有一定的局限性
论文部分内容阅读
粗糙集理论是一种有效的数据分析工具,它可以处理不确定、不精确、不完备、不一致的数据。然而,经典粗糙集理论是基于严格等价关系的,在处理实际应用中的数据时具有一定的局限性。对粗糙集理论进行扩展,使其适用于不完备的、混合型的(符号型和数值型混合的)数据是当前研究的热点。本文基于邻域关系提出一系列扩展粗糙集模型,构造基于扩展粗糙集模型的属性约简算法,并通过理论证明和实验分析验证这些算法的合理性。针对基因表达谱数据的特点,结合基因初选方法,将扩展粗糙集模型的属性约简算法应用于特征基因选择,通过对比实验分析进一步证明这些算法的有效性。本文主要内容如下:在邻域关系基础上,针对邻域参数缺乏理论依据和参数一致易造成误差的问题,借鉴量化理论中的等距量化概念,依据量化级数选择参数和不同基因值域范围,提出一种相对邻域关系,并构建相对邻域粗糙集模型;针对不完备混合型数据,利用邻域关系可以直接处理数值型数据和相容关系处理不完备数据的特点,对相对邻域关系和相容关系进行广义化表示,提出一种广义邻域关系,构建基于广义邻域关系的粗糙集模型;分析基于广义邻域关系的样本覆盖粒,研究覆盖粒内存在的不相容样本,定义相斥关系,研究相斥覆盖粒的性质,通过分解使相斥覆盖粒满足自反、对称和传递的性质。在广义邻域关系下,基于信息熵提出一种用于不完备混合型数据的条件熵,并给出基于条件熵的属性重要性,对比分析基于正区域的属性重要性,证明得到基于条件熵的属性重要性包含基于正区域的属性重要性,进而构造基于条件熵的不完备混合型数据属性约简算法。基因表达谱数据是不完备和混合型的,将提出的基于扩展粗糙集模型的属性约简算法应用于特征基因选择,结合基因初选策略,利用粗糙集属性约简不需要先验知识的优势,对基因初选中存在的冗余属性进行约简,最终得到特征基因子集。在公开的基因表达谱数据集上进行仿真实验,通过对比同类方法的时间复杂度和特征基因子集数目等指标,充分验证了基于邻域的扩展粗糙集方法在特征基因选择上的有效性。
其他文献
内存数据库在实时应用领域扮演着重要角色,在电力调度、工业控制、数据通信、航空航天、证券交易等领域有着广泛的应用。由于实时应用领域通常需要维护海量的数据,并且要求在
行人是视频监控对象的焦点,行人检测与识别也是计算机视觉研究的基础任务和关键技术之一,其广泛应用于智能视频监控、车辆辅助驾驶、人机交互等领域。论文主要针对行人检测与识
随着博客、维基百科、共享空间、推特等新型应用的兴起,互联网已经进入了一个信息爆炸的时代,需要处理的数据也越来越多,对于数据的处理要求也越来越高。面对不断增长的数据,
当互联网用户对一个疑惑的命题通过搜索引擎寻求答案时,不得不面对几十至几千条的搜索结果进行人工判别。网络上过量的搜索引擎返回结果分散了用户的精力和时间。又由于搜索
物联网下的数字化仓库通过给产品嵌入RFID电子标签,经RFID阅读器将标签内部的物品信息读取之后,由节点自带的无线收发单元通过无线自组织网络、计算机网络将物品信息自动录入企
近年来,计算机技术的不断发展和应用的广泛普及加快了人类社会信息化的进程。数据集成技术是解决甘前普遍存在的“信息孤岛”问题的重要方法。数据集成系统的优劣评判标准是
遥感技术是一种能够对目标进行非接触测量,采集并且分析的一种新型探测技术。随着电子计算机和空间技术的发展,各种资源和环境卫星的发射和成功的运行,通过遥感卫星从太空的高度对地球全貌以及地表动态变化等各种资源信息的提取技术得到了快速的发展。因此,对获得的海量遥感图像进行识别处理,即通过提取图像信息的特征,并利用这些特征进行图像分类,进而达到图像识别一直是遥感技术所要解决的重要问题之一。神经网络因特有的自
随着现代控制技术和计算机技术的迅速发展,以单片机为核心的控制终端控制系统在工业自动控制工程领域中取得了很大的发展,尤其在地理环境恶劣,无人值守,作业点分散,频发小数
为了简化组网结构,提高组网可靠性,网络设备虚拟化技术应运而生。然而随着交换网络面临越来越高的要求,其可靠性、可用性、可管理性等多方面都面临越来越高的挑战,传统的虚拟
射频识别(RFID, Radio Frequency Identification),是一种实现非接触式信息识别和采集的技术。通过RFID系统中读写器设备读取电子标签中的信息,将信息交付给用户或者服务器做