【摘 要】
:
在科技时代背景下,信息技术时刻在高速率地发展着,各行各业中产生了大量的数据,据不完全统计,在互联网中每天有数万亿PB数据不断更新和增长。这不得不使得人们在收集大规模数据,以及储存处理数据的这些方面的技能迫切提升。在许多工业、教育以及医疗行业中都存在着大量多维的数据,针对于此类数据进行一定程度的数据分析,有利于人们从数据中挖掘出来隐藏在数据背后的有价值的信息,同时,也有利于预测出下一阶段数据的变化情
论文部分内容阅读
在科技时代背景下,信息技术时刻在高速率地发展着,各行各业中产生了大量的数据,据不完全统计,在互联网中每天有数万亿PB数据不断更新和增长。这不得不使得人们在收集大规模数据,以及储存处理数据的这些方面的技能迫切提升。在许多工业、教育以及医疗行业中都存在着大量多维的数据,针对于此类数据进行一定程度的数据分析,有利于人们从数据中挖掘出来隐藏在数据背后的有价值的信息,同时,也有利于预测出下一阶段数据的变化情况,这样,有利于针对于动态变化的数据提前做好应对之策。总之,数据挖掘和智能信息处理目前已经是研究工作者们近些年来重点关注的研究内容之一。粗糙集理论是用来处理模糊、不确定、不完备数据的一种有效的数学工具,它的优势在于很多时候仅仅需要利用生成的数据表中的信息本身,并不需要计算出其他的概率论的有关数学知识,如先验知识和其它附加信息等,通过简单的分析处理就可以很便利地分析数据表中的各项数据,进而发现隐藏在数据表中背后的有用的有研究意义的知识或者数据,粗糙集理论一定程度上,揭示潜在数学规律。就目前看来,粗糙集理论以及衍生出来的邻域粗糙集理论、变精度粗糙集理论、模糊粗糙集理论和覆盖粗糙集理论等理论,这些相关理论已经大量运用在数据挖掘、智能信息处理、模糊识别和知识约简等科学研究。属性约简是在保持属性区分能力不改变或者大方向不改变的情况下,去除掉数据中的无关或者不太重要的属性。近些年来,由于许多医疗、教育和工业领域中的数据通常都是在动态实时更新变化,每当数据的数据量増长到一定维度时候,从原始数据集中获取的属性约简和知识获取结果将不再适用,此时需对新生成的数据表,重新进行处理和分析。若使用静态的非增量式的属性约简方法来处理时,将导致属性约简算法的时间复杂度急剧增加,且较难寻找出新数据相较于原始数据的变化规律所在。因此,基于粗糙集理论围绕动态数据研究动态数据挖掘理论和方法具有很大的研究价值。本文的主要研究工作和创新工作如下:(1)基于邻域粗糙集模型和邻域条件熵的常规增量属性约简算法存在精度低,效率低。本文重新定义了一种新的邻域粗糙熵,并推导出邻域粗糙条件熵,分析了基于信息熵的属性约简算法相对于代数观下属性约简算法的优势,以属性的邻域粗糙条件熵为基础来计算属性重要度,提出了一种基于邻域粗糙条件熵的非增量属性约简算法,并且为了精确地确定邻域阈值,本文利用人工蜂群优化算法来搜寻本算法最优的邻域阈值。(2)针对决策表下样本的动态变化,研究探讨了如何快速地从动态决策表中提取关键的知识或规则。第一,完备决策表中独立样本的増加和删除进行分析,基于新的邻域粗糙条件熵动态更新机制,通过计算新的重要度和约简集,对于满足阈值要求的规则进行动态增加和删除。第二,再分析批增量下,多个对象增加和删除时,基于新的邻域粗糙条件熵动态更新机制,再重新确定新的约简结果。主要是分析了新增样本后邻域的变化规律,邻域粗糙条件熵的变化规律以及约简结果的变化规律,并做了详细的理论推导工作。(3)在(2)的基础上,提出了一种基于邻域粗糙集的増量式属性约简算法。在UCI标准数据集随机改变数据集中的10%,20%,30%,40%,50%样本中的数据值,重新计算新生成的数据集的约简结果,并通过与多种算法进行约简结果的对比实验和以十倍交叉验证方法在两种传统分类器下的精度分析对比实验,实验证明所提出的属性约简算法以及新定义的邻域粗糙条件熵的有效性和可行性,并证明了所提算法对混合多维数据有一定的应用价值。综上,本文以粗糙集理论作为数学理论支撑,以智能信息处理为目的,针对动态不完备决策表的属性约简和知识获取模型与增量属性约简算法进行了深入的分析和研究。针对动态数据中的样本集变化,导致的属性约简和知识获取需要实时更新问题,进行了较深入研究,设计一种新的增量属性约简算法,较好地解决了许多静态非增量算法未能描述数据更新变化的变化规律和算法运行效率较低等诸多问题,进而为更容易适应大数据环境下数据实时分析和挖掘。
其他文献
随着互联网金融的迅猛发展,P2P网络借贷行业也开辟出了一片新的天地。2013年开始我国P2P网络借贷行业进入到了爆发式的增长模式,借贷人数和交易量等数据与日俱增。随后中国互联网金融协会的成立,法律法规和监管制度也相应出台,这代表了我国的P2P网络借贷行业进入到规范化时期。然而,在P2P网络借贷行业蓬勃发展并且监管严格的背景下,平台却被曝出跑路、经侦介入等坏消息。想要解决P2P网络借贷平台在发展过程
十九大报告中提到,要坚决打赢脱贫攻坚战,让贫困人口和贫困地区同全国一道进入全面小康社会,不断满足人民日益增长的美好生活需要。财政扶贫资金作为扶贫政策载体,既是脱贫攻坚战的“保障线”,也是贫困村民的“保命钱”,中央财政安排专项扶贫资金由2013年的394亿增加到2018年的1060.95亿,随着资金投入数额的不断加大,庸官懒政、腐败贪污等现象也不断涌现,虚假立项、资金层层截留、挥霍浪费、拨付缓慢、挪
1.引言目前水力压裂监测的常规手段是微地震监测,随着近来带钢套管长电极的电法/电磁法模拟工作的涌现,依靠长电极增强地表电场响应的可行性得到研究,使得在压裂过程中根据电
近年来,随着信息科技的快速发展,我国信息化水平已经进入了一个全新的时代。各种新技术、新产品的不断应用对各行各业的管理运营模式产生了重大影响。利用信息化手段进行企业日常管理与服务,形成管理信息化模式,已经成为了目前企业日常运营的常态。医院作为社会医疗的重要组成部分,利用信息化手段实施医疗管理与服务已经成为当前医院发展建设的重点,管理信息化模式已经发展为医院日常运营的重要支撑。在信息化时代下,医院管理
本研究是以感觉统合作为训练手段,对花样跳绳运动进行运动干预,通过影响儿童的本体觉、前庭平衡觉、学习能力、触觉防御等方面,来分析感觉统合训练对花样跳绳运动的影响效果。研究采用了文献资料法、访谈法、问卷法、实验法、观察法、数理统计法,以雅正小学一年级2个班级72名学生为实验对象,通过随机抽签,分为实验组106班(N=36)和对照组107班(N=36),设计为期三个月的运动干预实验。其中实验组除正常花样
我国是世界上遭受自然灾害最为严重的国家之一,并且伴随着社会经济的持续发展,各类社会矛盾日益突出,突发公共事件频发,给我国带来了严重的人员伤亡和财产损失,也对经济发展造成了一定程度的影响。因此,应急管理工作已经越来越受到各级政府的重视。应急物资作为应急工作开展的物资基础,其储备状态在一定程度上决定着应急工作的效果。然而,目前我国应急物资储备的主体仍然是政府,这种传统的储备模式已经不能满足我国应急工作
聂元梓大字报命运的"戏剧性"变化1966年,我在北京大学国际政治系三年级学习。这年夏天,我们正在北京朝阳区楼梓庄大队(北京工
合成孔径雷达(Synthetic Aperture Radar,SAR)成像受天气等自然条件的影响较小,能对识别的目标进行全天候、全天时的实时检测,被广泛应用于军事侦擦和地理测绘等多个领域中。提高SAR图像目标识别的精度与速度也成为目前研究的热点之一。近年来深度学习在目标识别方面取得了非常显著的成绩,也为SAR图像目标识别提供了新的思路。本文在了解SAR成像特性的基础上,分析了深度学习中全卷积网络
近几年来,伴随着国家宏观经济下行,以及“三公消费”禁令、“八项规定”等一系列政策对政务消费的严控,白酒消费需求受到强烈的冲击,导致白酒行业在2012年出现断崖式崩溃,从黄金发展期迈入深度调整期。但是,随着消费升级带动白酒个人消费需求,我国经济逐渐转型发展,自2015年开始,白酒行业经营业绩重新开始以稳定的速度上涨,渐渐展现出了复苏回暖的态势。因此,对各大白酒企业来说,若能把握住此次行业复苏的巨大机
自21世纪以来,核心素养逐渐成为各个国际组织和国家教育领域的热点话题和重点研究对象。我国基于自身教育背景和国家对人才发展的培养目标,于2016年正式发布《中国学生发展核心素养》,之后所有学科接踵提出具有各自独特性的学科核心素养理念。在这种情势下以“图像识读、美术表现、审美判断、创意实践、文化理解”为培养目标的美术学科核心素养正式形成。依据美术学科核心素养理念研制的《普通高中美术课程标准》在2018