论文部分内容阅读
关联规则挖掘是数据挖掘中的一个重要研究课题。它是搜索强相关的项集合的一个过程。挖掘一个超市数据库, 可以找到不同商品之间的销售联系(它反映了顾客的消费行为),例如:面包与牛奶、咖啡与方糖、牙膏与牙刷等通常被同时销售。这些是常识性知识。有趣的是, 关联规则挖掘能找到,像“啤酒与尿不湿”被同时销售, 这种非常识性知识。这导致关联规则挖掘被深入研究和广泛的应用。例如, 它被进一步用于解决库存控制(stock control) 、商品促销(Sales promotion) 、消费者行为分析(Customer behavior analysis)等问题。随着超市和日用品工业的发展,捆绑销售(Binding sale)方式——捆绑商品(Binding commodities)销售已成为方便顾客并提升利润的一种重要手段。这正是关联规则挖掘的用武之地。本论文深入细致地研究了这个问题,并提出了挖掘区间值规则:A→[B, C]的思想和方法。捆绑商品借助区间值(Interval values)来表示有很多优点。首先区间值包含了比单个具体数据更多的信息。因为单个数据提供的只是单个数据本身,而区间值提供的是一个分布,即, 可以取区间内的任意一个数。其次区间值比平均数有更强的表达能力,也就是说区间值的信息熵(Interval entropy)要大于平均数的信息熵(Mean entropy)。再者,区间值数据库挖掘可以发现哪些商品适合于捆绑、哪些商品不适合于捆绑。这有重要的实际应用价值。论文在对区间值聚类算法研究的基础上, 提出将传统关系数据库的两个字段看成一个新字段,并用其中一个来表示新字段的“左端点域”(区间值左端点)用另一个来表示新字段的“右端点域”( 区间值右端点),由此形成了区间值数据库。论文深入研究了强关联规则( 亲属关联规则) 的挖掘算法,给出了强关联规则的区间函数公式; 在对这些区间函数值研究的基础上,构建了一种完备区间格系统,并利用完备区间格满足的一个性质:A∧C=B∧C且A∨C=B∨C ?A=B 来对商品进行捆绑。区间值关联规则挖掘的实质是对捆绑商品的挖掘,也就是研究哪些商品应该被捆绑。本论文的主要工作分为如下四个部分: (1) 提出传统数据挖掘中存在许多模式遗漏问题,并从物理学、数学、生物学等角度论述研究这些遗漏模式的重要意义。(2) 针对这些遗漏模式构建一种新型的数据库结构来存放和处理它们,这种新型的数据库就称为区间值数据库。(3) 提出了区间值关联规则的概念,并深入研究了区间值规则的真正内涵。(4) 区间值规则挖掘算法的研究。最后对本论文的主要工作做了总结,指出今后的改进方向。