论文部分内容阅读
随着云计算、物联网技术的发展,多种先进技术和传感器大量应用于数据采集中,使得多源异构数据呈指数式不断的增长和积累,数据从总量和种类上已颇具规模,且数据种类也从结构化扩展到非结构化,数据之间联系更加丰富多样。然而由于数据规模、种类和速度增长的复杂性,单纯的依靠传统的分析方法已经无法分析和处理当前海量数据所隐含的有用信息。一方面,传统分析方法的建模与分析能力不足导致“多源异构”数据无法用于决策而失去价值。另一方面,针对诸多复杂系统或物理过程的建模仍然困难,削减变量则模型过于简化,增加变量则相关性过于复杂而难以处理。在信息量如此庞大的背景下,如何从规模大且种类繁多的不确定数据中获取价值,是当前所有行业所面临的问题。本文从大数据分析决策的数据复杂性出发,结合传统的数据挖掘方法,提出基于相关关系识别的预警技术,分析行业大数据,主要研究内容如下:(1)在当前大数据的背景下,研究大数据的科学问题,同时通过多种相关关系的对比,选取具备一般性和通用性的相关关系识别方法,设计基于相关关系识别的预警算法。(2)数据质量是保证数据应用的基础。针对当前价值密度低的大数据集,本文研究数据质量评价方法,建立数据质量评价模型,给出了数据质量评价实施步骤。同时,针对不同的行业数据特点选定合适的数据质量评估准则对其进行评估。(3)研究基于相关关系识别预警算法的行业应用,利用不同类别的数据背景,分析数据间存在的多条线索之间的逻辑关系,识别影响电池故障率的关键因素,识别影响电压波动关键因素,并应用于实际系统中,验证本文算法的有效性和正确性。本论文相关关系识别的预警技术可在大数据机理认识不全面的情况下,在海量数据中发现隐藏因素,揭示数据间的规律性,发掘数据价值,识别预警指标,形成预警指标-模式识别-预警,从而为企业决策提供依据。同时有助于提升企业决策管理水平,产生显著的经济效益。