海量税务数据的可视化研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:mouliyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于科学技术的持续发展,信息可视化越来越流行,它与人们的日常生活越来越紧密相关。信息可视化是一种研究大规模非数值型信息资源的视觉呈现的技术,旨在帮助人们理解和分析数据。信息可视化发展到现在已经产生了很多可视化方法,并且可视化技术已经应用到很多领域,例如金融、商业、文献、抽象概念等方面。然而,海量税务数据方面的可视化应用还很少。税务系统产生的海量税收业务管理数据,具有量大、复杂的特点,并且往往是多维的,现有的信息可视化方法都不能很好地满足其可视化需求。比如,采用平行坐标可视化方法的话,生成的可视化图表会出现异常混乱的现象,很难从中发现潜在的数据结构和数据模式。导致混乱现象的原因主要有两个,一个是税务数据的不完整性,即数据集的缺失值问题,另一个是相邻两个维度之间的联系不够紧密。针对这些问题,本文提出了一种处理不完整混合型数据的混乱度减少方法。具体而言,(1)提出了一种基于关联规则的缺失值填充方法,从而增强了数据的完整性;(2)给出了用于描述维度之间关联关系的离群点的定义以及相应的计算方法;(3)根据维度之间的相关性运用本文的算法得到最佳维度顺序,从而实现更好的平行坐标可视化效果;(4)给出了一种关于混乱的度量方法,将它作为一种评判可视化效果好坏的标准。最后通过实验对比了原始的平行坐标可视化方法与本文的基于不完整混合型数据的混乱度减少方法,实验说明了本文的方法具有更好的可视化效果。
其他文献
随着生产和科学技术的快速发展,生产过程自动控制的要求不断提高,传统测试系统的缺点也愈来愈突出,网络技术应用于测试系统已成为现代测试技术发展的趋势。由于传统测试系统
Hash函数是密码学中最基本的模块之一,被广泛应用于数字签名、消息鉴别、模拟randomoracle和伪随机数生成器等领域,是近几年密码学研究的热点领域。本文对Hash函数的研究现状和
随着计算机科学的发展,图像压缩技术在通信系统和多媒体系统中的重要性越来越高。现代信息技术的发展给图像压缩和传输技术带来了更多的挑战和机遇。因此我们必须探索其它的一
先进的通信计算构架—ATCA是面向通信产品的模块化硬件标准,在ATCA上开发通信系统有利于系统扩展和降低产品成本。在ATCA构架和系统软件上开发嵌入式系统平台,屏蔽各个单板不
随着企业信息化的发展,企业内部汇集了大量的信息系统,如办公系统、邮件系统、资源管理系统等等。一方面,用户在对这些系统的登录中浪费了大量的时间,同时记忆各个系统的用户名、
随着通信技术、计算机技术和网络技术的发展,会议系统越来越多的应用在人们的社会生产和生活中。目前跨地域的企业内部会议,企业间的商务会议等正越来越多地使用会议系统。各个
随着计算机硬件性能的飞速提高,网络中存在着大量闲置的计算资源,如何有效的使用网络中大量闲置的高性能的硬件资源;以及如何设计网络模型,以使网络提供高质量、高保障、高效
随着数字信息技术的飞速发展,由传统的模拟电视到数字电视的数字化革命已成为必然。数字电视将带给我们全新的视觉冲击和前所未有的大容量信息资源。我国目前也正在经历着电视
传统的软件开发模式,从需求->设计->开发->测试需要层层环节,每个环节都要靠相关的文档等传递各自的成果。但是随着现代社会的高速发展,对软件开发的要求也越来越高,在当今无论是商
在工程应用领域存在着许多计算量庞大的问题,如力学计算等。这些计算问题的程序有许多是用Fortran语言编写的,并且在串行计算模式下单机运行,其正确性已得到时间的验证,但其计算