论文部分内容阅读
随着税务部门信息化建设水平的不断提高,不同时间上线、不同开发商开发、不同业务部门使用的各种税务管理信息系统产生了大量的数据。然而这些数据却成了一些“信息孤岛”,缺乏有效的集成,它们很难为管理层的决策支持作出比查询更多的贡献。在这种情况下,本文讨论税务建设税务数据仓库和数据挖掘系统,以便能够好地为税务管理人员服务,提高其决策质量和效率。 本论文在熟悉税收业务和现有税务管理信息系统的基础上,探讨在税务系统建设税务数据仓库的方法和步骤,设计了税务数据仓库的数据模型和体系结构,建立了税务数据仓库与数据挖掘系统,并在数据仓库的基础上实现了数据的深层次分析。 总结本论文的研究内容,具有如下创新: 1、在数据仓库实现过程中,本文实现了基于时间戳的数据增量更新方法,该方法很好地解决了在数据仓库的海量数据中进行数据更新的问题。 2、以Analysis Services为OLAP引擎,本文借助ASP.NET、ADOMD、MDX、TeeChart等先进技术设计并实现了基于Web的OLAP数据展现和图形展现,可以为用户展示直观的报表和图形。 3、在对关联规则深入学习的基础上,提出了一种改进的Apriori算法,并在税务数据仓库中得到应用,该算法的创新之处在于:计算频度的方式、连接算法。 本论文中计算某个项目集出现频度的方法:不仅支持基于数据记录个数的频度计数方法,还支持用户自定义的频度计算方法,如Sum(),log()等。 本论文中由k-1维频繁项目集生成k维候选集的连接算法:Lk-18 Lk-1={前k-2项都相同,并且第k-1项不同;同时两个作连接的项目集的第k-1项不同时出现在同一个代码表中,即这两个单项不具有互斥关系}。 4、以改进的Aprioi算法为基础,设计并实现了一个允许用户自定义的通用关联规则挖掘系统。