数据挖掘技术在联网审计中的应用与研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:XSDCL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息系统的发展,各大型国有企业、中央部委、海关等部门积累了大量业务信息,审计署每年要花大量的精力审计这些业务数据,以期发现这些部门是否有违规行为并上报中央,对其进行监督整改。由于这些业务数据日益巨大,因此有必要利用相关技术对这些重要信息进行分析处理。  数据挖掘是广泛应用于大数据分析处理的技术之一,采用数据挖掘技术可以通过对大量业务数据的分析处理,挖掘出有疑点的数据,从而重点对这些疑点数据进行审计分析,降低数据量,减少审计分析处理工作量,排除人为因素的干扰,得到的审计结果有着较好的客观性。  本文以数据挖掘技术为基础,以海关、社保和国税单位的数据为载体,通过分析数据特征,从数据预处理、可疑审计数据集的形成以及审计方法匹配三个方面,对审计数据进行深入分析研究,为最终审计提供辅助决策。  本文首先分析了当前国有企业、中央部委等部门的数据分布特点,根据审计组网要求,提出了数据采集局域网、数据传输局域网、数据存储局域网的网络拓扑结构,在数据采集局域网通过设置前置数据采集机进行数据采集,为保证被审计单位和审计署之间的系统安全性,设置了双开关的网络开关,保证两个系统的物理隔离;在数据传输局域网中,采用当前成熟的数据传输方法,采取SDH/ATM/ADSL等技术进行数据传输,并通过构建审计专网VPN进行安全性构建;在数据存储局域网中,通过不同单位数据特点,设置了集中式、分散式以及共享式的存储局域网,并且根据各个单位的数据分布特点,提出了三种典型的组网模式,即集中式组网、分布式组网以及点对点式组网。  面向有噪声的审计数据,通过分析比较数据降维方法,本文提出融合L2,1主成分分析的半监督降维去噪算法,由于PCA对数据中的噪声敏感,将L2,1范数对PCA进行改进,同时由于L2,1范数的PCA算法是通过降低矩阵的秩实现维数约简,而秩的计算复杂。本文针对这一问题,提出利用迹范数代替矩阵的秩来简化L2,1-PCA的计算,提高算法效率,进行数据降维。为获得算法的最优解,本文在此基础上提出了基于半监督的融合L2,1-PCA的除噪优化模型,模型利用迹范数以及矩阵变化,利用特征方程方法以及李雅普诺夫方程方法,求取模型的最优解,并证明了模型的稳定性。实验结果表明,该模型具有良好的降维除噪效果。  由于审计数据大部分是时序数据,为分析可疑审计数据,本文提出了去峰值的显著连续序列算法,该算法通过分析以往时序序列异常数据发现算法,在显著连续序列算法的基础上,进一步减少显著序列组的计算,提高运算效率,算法以海关数据进行实验,发现了数据集中的显著数据序列,在此基础上,对这些数据进行进一步的审计可以提高审计效率。  为提高审计效率,借鉴以往的审计方法,本文提出了构建审计方法库的基本方法。在进行审计方法的匹配中,本文提出了基于hownet的语句匹配算法,该算法在分析了以往匹配方法不考虑词语频率的问题,构建了频率函数以及权重函数,将频率函数加入匹配算法中,充分考虑了不同词语的权重。实验表明,这种方法具有更有效的匹配度。在审计规则应用中,将这种匹配算法引入到审计方法的查找匹配中,有效率较高。  论文最后总结了全文的创新点,提出了今后将继续进行的研究方向。
其他文献
  本文从多角度讨论了业务系统的图形用户界面开发,从开发中存在的问题出发,首先提出一个支持获取业务系统的界面逻辑的表示模型——RU模型(Requirement-UserInterfaceModel)
自然景物的模拟一直是视景仿真领域的一项重要研究内容。尤其是对动态自然景物如云、雾、烟、雪、水流、火花等的模拟,更具挑战性,这是由于传统的造型方法很难描述它们的形状
随着Internet以及电子商务的飞速发展,信息安全更为令人瞩目。如何保证网络环境下信息的真实性、完整性、机密性和不可否认性已成为信息安全以及电子商务领域研究的主要课题。
信息的检测是信息处理的前提,检测的基本任务是获取有用的信息,因此检测技术属于信息科学范畴,是信息技术三大支柱(检测控制技术、计算技术和通信技术)之一。 目前检测设
随着传统互联网的普及和移动互联网的兴起,使得世界上每天都会产生海量的数字图像信息,如何从中准确快速的查询到用户期望的图像成为急需解决的问题。传统的基于关键字的图像检
20世纪后期,生物科学技术迅猛发展,数据资源急剧膨胀。为了储存、加工和进一步利用这些数据的需要和以数据分析、处理为本质的计算机科学数据库技术和网络技术的迅猛发展产生了
随着软件技术和Internet的迅猛发展,企业信息系统原有的C/S结构越来越不能满足企业计算在分布性、可扩展性和异构性等方面的要求。三(N)层系统构架将业务逻辑从客户层分离出来,
无线通信网络的宽带化为无线网络多媒体服务提供了物质基础,使无线通信与多媒体通信的结合成为可能。以3G 移动多媒体业务为代表的无线多媒体业务已经在韩日,欧洲等国家和地
随着我国高等教育改革的不断深化,在校学生规模的不断扩大,学生工作日益繁重,给学校带来相当大的管理压力,制约了学生工作的开展。 数字化校园的构建为教育管理信息化提供了良
本文介绍了基于B/S的软件开发缺陷管理系统的设计及其实现。 本文首先分析了缺陷管理在项目整个周期的存在形式和具体内涵,介绍和总结了国内外测试管理工具的现状和存在的不