论文部分内容阅读
关联规则挖掘是数据挖掘的一个重要领域。在关联规则挖掘的过程中,反复的I/O操作必定影响了挖掘的效率。减少I/O操作的主要方法是减少事务数据集的扫描次数或减少候选项目集的个数。本文针对Apriori算法的不足之处,通过综合考虑制约算法效率的各个因素,建立了一种改进的Inter-Apriori算法。该算法充分利用了 Apriori算法的优点以及矩阵运算的特点,通过对矩阵的行和列进行压缩,能在稠密度不同的数据库类型中表现出良好的伸缩性。本文的主要研究成果如下: ⑴建立了一种改进的Inter-Apriori算法。该算法是一种基于定位和权值事务项集的挖掘算法,只需扫描一遍事务数据库。该算法利用垂直型布尔矩阵来存储交易数据,通过“与”运算与权值来计算支持度,利用定位搜索和合并事务矩阵相同列来剪枝,从而减少了算法在挖掘过程中使用的存储空间和计算时间。文中通过实例给出了改进后的算法流程,从理论分析和实验测试两个方面对Inter-Apriori算法和改进后的算法进行了分析比较,说明了改进后的算法优于Inter-Apriori算法。 ⑵将关联规则挖掘应用于商业银行贷款用户是否违约的研究分析。利用商业银行贷款用户的逾期记录信息,利用关联规则挖掘的算法Inter-Apriori算法和改进后的算法进行挖掘,一方面,验证了改进后的算法性能;另一方面,挖掘出商业银行用户逾期贷款之间的关联关系。通过分析这些关联关系挖掘找到了商业银行贷款用户是否违约的影响因素,从而可以为商业银行贷款业务的发展提供科学依据。