论文部分内容阅读
XBRL作为一种基于XML的可扩展性商业报告语言,目前已广泛应用于财务系统中。该语言拥有技术规范,分类标准和实例文档三层结构关系,技术规范规定了XBRL所需遵循的语法规范和相关技术标准,分类标准则依赖于技术规范和会计准则,由模式文件和链接库构成,实例文档则是在XBRL技术规范和分类标准的基础上产生的一种商业报告语言,它存储了企业财务的详细数据,用来通过互联网传达信息。而数据挖掘与XBRL层次结构的融合给我们的数据分析带来了便利。因企业财务数据越来越多,利用数据挖掘方法挖掘出我们需要的信息显得极为重要。XBRL核心思想为先提取数据源,再将数据源文档转化为xml文档,然后通过文档转换器转换为XBRL格式,XBRL格式文档就可以存储于用户数据库系统或上传于浏览器中供用户数据分享。数据挖掘便是从XBRL文档中提取有关信息加以分析提炼出我们需要的数据。数据挖掘的一般过程为数据采集,数据预处理,数据挖掘,数据展示,通过数据挖掘中关联规则的Apriori算法与XBRL层次结构相结合,本文提出了一种基于XBRL层次结构的数据挖掘模型架构,该模型架构包括数据提取转换,X‐Hive数据存储,关联规则挖掘,结果展示四大模块,该模型综合了XBRL层次结构思想,符合数据挖掘相关流程,并利用数据挖掘中的关联规则方法和XQuery查询思想对存储于X‐Hive数据库中的XBRL数据做深度挖掘。在对X‐Hive数据库进行XBRL数据挖掘的过程中,通过对Apriori算法进行改进,提出了一种基于X‐Hive数据库的DC‐Apriori挖掘算法,从而对XBRL的数据挖掘更加高效。实验表明:在X‐Hive数据库中采用DC‐Apriori算法进行XBRL关联规则挖的方法是可行的、行之有效的,并且挖掘效率高于关系数据库中应用Apriori算法的效率。