低保数据中数据挖掘模型的建立

来源 :亚太教育 | 被引量 : 0次 | 上传用户:bojielinlinbojiebjbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:通过将数据挖掘技术应用于低保数据的统计,一方面可以将先进的计算机技术应用到低保统计工作中,提高了工作效率,更重要的是通过分析每年产生的大量数据,可以获取隐藏在其中的规律,对数据的构成和变化有一个综合而深层次的挖掘,找到贫困群体成为低保户的主要特征,对低保资金占有比例较大的群体给予更多的关注和帮扶。
  关键词:数据挖掘;模型;数据
  一、低保数据预处理过程
  (一)样本数据的特点。本文对张掖市2015年低保数据进行采集,通过研究这部分样本数据,最终能总结出数据挖掘技术在农村低保数据统计应用中的一些结论。
  根据分析低保数据具有以下的特点:(1)数据量大、覆盖面较广。最低生活保障体系是一个规模很大的体系,数据量极大,而且数据又分布在全国不同的地区,对低保数据进行挖掘和和管理是非常有意义的;(2)具有一定的动态性和时间性。随着时间的变化,低保数据在不断增加和删除,需要对数据进行更新。
  (二)数据采集。面对庞大的低保人群,数据采集的工作量是很大的,采集的数据要典型、内容尽量完整充实,这样最终的数据挖掘结果才会更有效和准确,数据采集过程中需要关注的一些问题如下:数据收集要以地区为单位,找出不同地区间低保人员在生活状况、年龄分布、性别、文化程度、家庭结构、身体健康状况等方面不同于其他群体的差异和特征,对重点困难地区加以帮扶和支持。
  (三)数据清理。在采集数据和输入数据的过程中,不可避免的会出现数据错误、重复数据和数据不一致的问题,这些数据在数据挖掘中都是不符合要求的,数据清理的主要任务是填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。为了使本次挖掘结果达到预期目的,进行如下的清理:(1)如果数据中有大量缺失的属性,将缺失的属性值用同一个常数替换。如“Unknown”。先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。(2)对某些比较重要的属性,利用该属性的最可能的值填充缺失值。
  有些属性的值在数据采集和数据输入的过程中空缺,但是缺失的这些值可以通过分析属性的历史数据来填补。在历史数据中,分析属性的哪个值在整个数值的比例是最高的,也就是这个值分布的密度是最高的,说明这个属性值出现的可能性是非常大的,就用这个值来填充空缺的值。
  (四)数据转化。 原始表中没有年龄字段,通过户主信息表和家庭成员信息表中的身份证号计算年龄字段,采用下面的SQL语句来实现:Select身份证号,datepart(yy,getdate())-substring(身份证号,7,4)as年龄from低保数据对于低保人员信息的年龄字段,因为信息量巨大,为了有目的的进行数据挖掘,将年龄的取值离散化,进行有效的分类,将年龄取值划分为三个区间,每个区间为一个属性值,将年龄25-35的划分为“青年”,将36—59划分为中年,60以上为老年。
  (五)数据规约。原始数据一般是非常大的,在海量的数据上进行数据挖掘和分析将需要很长的时间,数据规约是从数据集中挑选或过滤出具有代表性的数据,缩减挖掘的时间和成本,使数据挖掘的目标能缩小一些。规约之后,数据表示小得多,但最终数据挖掘的结果仍然接近地保持原数据的完整性。数据规约的策略有下面几种:
  1.数据立方体聚集:对数据立方体中的数据寻找感兴趣的维度进行再聚集。
  2.维归约:检测并删除没有关连、关连性弱或冗余的属性(维)。
  3.数据压缩:使用编码机制把样本数据转换成另一种较小的数据流,减少数据冗余。
  4.数值压缩:用替代的、较小的数据表示原有的数据。
  因为挖掘对象户主信息表、家庭成员信息表、家庭信息表中的属性个数比较多,去掉数据中不重要的属性,像姓名、身份证号等信息。为了方便决策模型的建立,所以选择与其相关的这属性作为决策树建立的依据,形成新的低保信息分析数据表。
  二、低保数据挖掘预期目标
  在对低保数据进行数据挖掘前,首先要明确低保管理的决策需求,也就是确定数据挖掘的预期目标,之后才能决定数据挖掘需要解决的一系列问题。随着低保信息采集系统的运行和各种政策的不断加强和深入实施,低保制度得到了极大的发展和促进,同时在这个过程中积累了大量的数据,为了政策更好的实施,人们希望从数据中获取的信息也越来越多,不只是简单的数据的表面现象,更多的关注数据的质量和数据本身能包含的信息。
  例如:1.低保人数与参加低保的时间、地区之间的关系。通过低保户数据,找到低保人数与时间之间的关系,低保资金发放地区之间的关系,为低保资金的发放提供政策上的支持。
  三、总结
  通过将数据挖掘技术应用于低保数据的统计,一方面可以将先进的计算机技术应用到低保统计工作中,提高了工作效率,更重要的是通过分析每年产生的大量数据,可以获取隐藏在其中的规律,对数据的构成和变化有一个综合而深层次的挖掘,找到贫困群体成为低保户的主要特征,对低保资金占有比例较大的群体给予更多的关注和帮扶。通过对历年的数据分析和预测,对未来低保人口的分布、人数以及人口构成有一个前瞻性的掌握。这些信息的提取,可以为低保政策的制定提供有说服力的依据。
  参考文献:
  [1]陈京民.数据仓库原理、设计与应用[M].中国水利水电出版社,2004:21—35.
  [2]彭丽.数据挖掘中几种划分聚类算法的比较与改进[D].大连理工大学硕士学位论文,2008.
  [3]印勇.决策支持分析新技术——数据挖掘[J].重庆邮电学院学报,2001增刊:70--74.
  [4]姚家奕等.多维数据分析原理与应用[M].清华大学出版社,2004.
  (作者单位:赵新华/兰州职业技术学院电子与信息工程系;张克柱/兰州职业技术学院现代服务系)
其他文献
思科(Cisco)是全球从事互联网软硬件生产最大的公司之一,现有雇员66000余人。思科1984年创建后有过连续40个季度资产增长的骄人业绩。鼎盛时,公司资产市值曾达5500亿美元。可是,当2001年那场世界性金融风暴袭来之时,它和许多西方大公司一样,也是难以招架。产品严重积压,公司股价跌去88%,资产持续巨额流失。无奈之下只得紧急裁员8500名。于是,媒体开始不断指责思科高管经营管理不当。不久,
泛在信息环境下,揭示多模态信息资源的深层语义信息,为用户提供集成化的信息服务,具有重要的研究和应用价值。文章在多模态信息融合的现有研究基础上,结合舞蹈信息的特点,比较分析
文章探讨了数字时代背景下全民阅读推广面临的挑战,包括阅读平台的多样化、阅读载体的多元化、阅读内容的浅表化、数字阅读的外延化和大数据化,继而从阅读推广的常态化长效化机
中国历来是个英雄辈出的国度,劳动模范就是新中国成立后各条战线涌现出的英雄。60年过去了,在我们战胜各种艰难坎坷的过程中,一代又一代劳模做出了重大的贡献,他们是民族的精英,他们是国家的脊梁。为了进一步发挥劳模对于广大群众的榜样作用,我们有必要针对当前面临的新情况、新问题,进行一些深入的分析和思考,这既是建设社会主义核心价值体系的需要,也是繁荣发展我国企业文化的需要。    “老黄牛”精神过时了?  
目的探讨应用气垫床治疗Ⅱ期压疮的临床效果。方法将2006年1月-2007年12月收治的100例Ⅱ期压疮病人随机分为两组,对照组采用常规治疗和护理方法;观察组在对照组的基础上同时加
为顺应时代发展要求,承载着厚重文化内涵的出版企业,就应当积极构建和完善企业文化,使之成为企业繁荣发展的强大驱动力。    长期以来,我国对出版市场的管理一直以行政手段为主,市场对出版资源的配置作用不明显,也没有形成规范、有序的竞争。加入WTO以后,政府加大了出版业管理体制、经营机制、管理模式等方面的改革力度,目的就是为了加快产业结构调整,提高生产力和市场竞争力。为顺应时代发展要求,承载着厚重文化内
证监会新闻发言人1月8日表示,国务院已经原则同意开展证券公司融资融券业务试点和推出股指期货品种。目前,证监会将统筹股指期货上市前的各项准备工作,预计需要三个月左右完成,以确保股指期货的平稳推出。股指期货的推出,不仅完善了中国股市的市场制度建设,而且在真正意义上开启了一个金融产品创新的时代,它将缓解股市中产品同质化带来的市场共振和系统性风险。  对于很多普通百姓来说,期货并不陌生,第一反应就是买空卖