基于数据挖掘的我国林业统计数据质量评估方法与实证研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国阳光型、服务型政府的不断建设,政府统计数据质量得到的全面提升。我国的林业统计数据作为政府统计数据的重要部分,依旧存在着质量不高、准确性低,甚至数据失真的情况,影响统计功能特别是决策支持功能的发挥,因此研究如何评估林业统计数据质量问题具有重要的理论和实际应用价值。本文基于以上背景对数据质量评估方法进行研究。首先,在文献研究的基础上,梳理了数据质量理论和异常检测在林业数据上的研究现状,异常识别方法进行研究,并对异常检测算法对比分析。其次,以林业统计时间序列数据为对象,采用数据挖掘技术与人工经验结合的方法,对现有林业统计数据质量进行评估,将林业统计数据按内容和性质分为林业生态统计数据、林业投资统计数据和林业产业统计数据,初步判断异常值的分布,根据数据的分布特征选择检测手段,在检测出异常之后同时在局部模型变化和整体变化中,挖掘背后信息。林业生态数据采用无监督的KNN、LOF、CBLOF、孤立森林算法,林业投资数据采用无监督的LOF、CBLOF算法,林业产业统计数据采用无监督的LOF算法,对各类林业统计数据的异常值进行识别和数据质量评估。结果表明:筛选出KNN、LOF、CBLOF、孤立森林四种无监督异常检测能准确地识别初步判断异常值的分布,可以很好的适用于林业统计数据的异常识别中。KNN和孤立森林算法,识别数据维度差异较大时,有较好的表现效果,同时孤立森林因为无需对参数进行假设,操作更简便;而LOF很好的考虑到数据的局部变化,探究出数据变化不符合局部规律的点;数据存在明显的类别时,使用CBLOF算法,效率高且性能较高。从数据质量来看,本文所选的林业生态统计数据、林业投资统计数据和林业产业统计数据所挖掘出其异常值,能准确探究到背后新事物的出现或者新机制的发生,整体来看林业统计数据质量较好。但在林业生态统计数据中,我国1984年—1985年人工造林面积偏高存在异常,被判为杂质点;林业投资数据中,我国1990年林业社会投资偏高存在异常,被判为杂质点,数据杂质点通过数据插补工作重新填入数据中。本文的主要贡献是在林业统计数据质量中,提出了基于数据挖掘的异常检测方法来检测数据之间质量,并运用不一致的数据和异常检测手段。通过实证研究表明,本文基于数据挖掘的方案能够有效识别异常并进行评估。
其他文献
含氮多环化合物普遍存在于有机药物、天然产物以及有机功能材料中,因此对这种杂环骨架的构建引起了化学工作者们极大地关注。基于可见光具有绿色环保、简单易得、可持续发展的显著优点,可见光催化在有机合成方面已经有了广泛的研究,与传统的有机合成方法相比,可见光催化的有机合成方法确实表现出了绿色、环境友好的优势。通过可见光催化的方法来构建含氮多环化合物将是一种绿色、环境友好的策略。本论文通过可见光催化烯酰胺类化
CuAO催化产生的H2O2是否参与乙烯诱导不定根发生至今还不清楚。本文通过药理学实验、组织化学检测以及激光扫描共聚焦显微镜技术,研究了乙烯诱导绿豆插条下胚轴不定根发生过程中CuAO催化产生的H2O2及NO的作用。所得主要结果如下: 1.乙烯合成前体ACC明显增加不定根数目,而ACC氧化酶抑制剂CoCl2及乙烯受体抑制剂DDC显著抑制ACC促进不定根发生的作用,表明ACC的作用相当于乙烯的作用
本文主要研究了套代数上在零积所确定的子集中保持Jordan乘积与保持ζ-Lie积的线性映射,具体内容如下: 第一章主要介绍了文中用到的一些符号以及概念(如套代数,同构,反同构,Jordan同构,ζ-Lie同构)等. 第二章主要对套代数之间的Jordan同构进行了刻画.证明了套代数上在零积所确定的子集中保持Jordan乘积的线性酉双射是同构或反同构. 第三章主要讨论了当ζ≠0,1时
谱对与Tiling对存在某些确定的联系,两者在小波理论、离散Fourier分析与三角逼近理论中有着直接的应用.谱集与Tile以及谱与Tiling集之间的关系是相当神秘的,有几个猜测主要针对两两之间的联系,以便澄清它们中的关系.在共轭Fuglede猜想中,已经知道存在的集合Ω与D必须满足m(Q)m(D)=1.这对于共轭Fuglede猜想来说是一个必要条件.在探讨谱与Tilings之间的关系时,所涉及
本文主要研究一类具有毒素的非均匀恒化器模型:边界条件为初始条件为s(x,0)=s0(x)≥0, u(x,0)=u0(x)≥0,(?)0,x∈Ω, u(x,0)=u0(x)≥0,(?)0, p(x,0)=p0(x)≥0,(?)0,xΩ. 通过运用不动点指标原理探究了该模型正平衡态解的存在性,利用分歧理论、摄动理论讨论了正平衡态解的分歧结构,稳定性和毒素对共存解个数及稳定性的影响. 本文主
通过慢性结扎坐骨神经制备的外周实验性神经起步点模型在有关神经放电节律模式及其转迁中得到了一系列的应用。迄今,研究人员在实验性神经起步点这个实验模型中已经发现并记录到了丰富的神经放电节律模式,并运用非线性动力学的方法研究自发神经放电的内在动力学规律。随机共振现象的发现和提出,使得人们认识到噪声可以与系统协同作用而有利于系统信号的输出。神经电活动中也存在经随机共振或随机自共振等机制产生的自发放电节律,
摘要Domain理论和Quantale理论具有理论计算机科学和纯粹数学的双重研究背景,它们各自发展,但两者均基于数学中三大基本结构之一的序结构理论,同时与代数,逻辑,范畴等学科有着紧密联系.尽管Domain理论与Quantale理论有着不同的研究对象和特点,但它们在一些方面是相互渗透和相互影响的,例如Pawel Waszkiewicz在Girard quantales上推广了Domain理论.自2
本文主要研究了某些特殊的数字集下平面自仿测度的最大正交指数的个数,以及一类特殊数字集下空间上的自仿测度的谱与非谱问题. 本文的主要结果如下: (1)一类特殊的数字集下正交指数函数的个数,推广并使文献[15]的结论更加精确.借助模4的剩余类及零点的周期性,分情况对扩张矩阵和数字集最大正交指数函数系的个数进行了探讨和证明.之后进一步对数字集进行推广,得到下面的结论:则由(M,D)决定的L2
半稳定性是在稳定性的基础上发展出来的新的概念,是介于李亚普诺夫稳定和渐近稳定之间的一个性质,指的是一个系统的解收敛于一个稳定的平衡点取决于系统的初始条件.本文受已有文献研究思想,方法和技巧的启发,研究的主要是离散系统以及奇异离散系统的半稳定等相关内容.通过对离散系统稳定性和半稳定性的的研究分析,利用半稳定性谱的定义,依据李亚普诺夫方程及其秩条件,给出了标准离散系统半稳定性的充分条件,并利用类似的方
随着现代科学技术的发展,多学科的理论和技术融合日益发展和完善,生物、物理、化学、药学和临床医疗的联系逐渐凸显并成为科学领域里的前沿课题。尤其是对生物膜系统的研究已经成为多学科多领域结合的典型和热门课题,大量的研究表明,生命体内复杂的生化反应以及由此产生的生命活动都与生物膜系统有着密不可分的联系,对生物膜进行体外模拟已经成为研究生物膜系统理化特性的重要技术手段,特别是成熟的Langmuir-Blog