论文部分内容阅读
伴随着数据流的出现,针对数据流的研究也越来越多,高效用模式挖掘研究也是其中之一。主流的高效用模式挖掘算法大部分都是基于两种数据结构:全局头表和效用树,这些算法在数据流上应用时存在全局头表冗余的问题,降低了算法的效率。此外,主流的高效用模式挖掘算法只针对非负效用值场景。对于包含负效用值的场景,由于原项集估值方法失效,导致算法的效率下降,影响算法的可用性。为了快速地挖掘数据流上的高效用模式,拓展数据流上高效用模式挖掘算法的适用范围,本文对数据流上的高效用模式挖掘算法做了深入研究,主要工作如下:(1)针对数据流上基于全局头表和效用树的高效用模式挖掘算法的全局头表冗余问题,本文提出全局头表压缩策略,并结合该策略提出数据流上的高效用模式挖掘算法IHUM-UT(Improved High Utility pattern Mining based on Utility Tree)。通过剔除与当前挖掘过程无关的非关注数据项,有效地压缩了全局头表的体积,降低挖掘过程中遍历全局头表的耗时,从而提高算法的运行效率。实验结果表明,在挖掘结果相同的前提下,本文提出的IHUM-UT算法具备更高的执行效率。(2)针对负效用值场景下原项集估值方法失效导致算法运行效率降低的问题,本文提出了同时适用于非负效用值和含负效用值两种应用场景的项集前向估值方法FEU(Forward Estimated Utility method)。相比于传统的事务权重估值方法,该方法同样具备向下闭包特性,且项集的估算效用值更加接近项集的实际效用值,可以有效地排除非候选项集的干扰。实验结果表明,在相同的参数配置下,本文提出的项集前向估值方法排除非候选项集的数量比事务权重估值方法多。(3)为体现高效用模式挖掘算法的应用价值,本文设计并实现了商品销售实时指导原型系统。该系统将IHUM-UT算法和FEU方法应用到客户购物记录流的分析中,对客户购物记录流进行高效用模式挖掘,得出一个统计周期内各个商品的高效用模式支持数,并以此来衡量商品的销售情况。最后根据商品的销售情况实时为商户提供商品销售指导意见,从而最大化商户的利益。