论文部分内容阅读
无线射频识别(RFID)的应用已经在物品跟踪和供应链管理系统中发挥重要作用。RFID系统中每个独立物品在不同位置移动将会留下一条数据痕迹,将产生巨大的海量数据。联机分析挖掘(OLAM)可以在海量数据上进行即时(adhoc)的复杂聚集查询,及时向用户提供分析数据,用以辅助决策。这种使用方式对查询响应速度提出了很高的要求,使得提高OLAM查询和分析操作效率成为数据仓库应用中的关键问题之一。
本文着重对基于RFID的现代物流数据仓库、基于层次编码的RFID数据压缩存储技术、现代物流的分布式序列模式挖掘、基于路径编码的频繁路径挖掘等物流数据仓库和数据联机分析挖掘技术进行了系统深入的研究。本文的主要研究工作及其所取得的创造性成果有:
1.提出了一种新型的RFID数据仓库模型以建立物流数据立方体,在多维空间中有效地灵活地进行高层次分析。这一数据仓库模型为分析RFID应用中产生的路径提供了有效工具,容易在不同粒度层次发现物品迁移的趋势。
2.提出了基于层次编码的一种新型预分组聚集算法DHEGA(GroupingAggregationBasedontheDimensionHierarchicalEncoding)。利用层次编码技术来生成基于RFID的物品EPC位图层次编码,采用基于B+树的维层次树对这些EPC位图编码结构进行快速有效地存取,以此进行有效的零售商店货架分析、物品退回和资产管理等基于RFID的物品追踪应用。DHEGA算法充分利用了长度较小的维层次编码及其前缀来快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,减少了I/O开销,提高了OLAP查询效率。
3.提出了一种基于分布式环境下的快速挖掘全局序列模式算法DMGSP。DMGSP算法将分布式环境下的各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输。采用合并树中结点序列规则和项序扩展策略,对非频繁序列进行剪枝,有效地约简了候选序列,减少了网络传输量,从而快速生成全局序列模式。并结合现代物流管理实际进行了基于路径序列挖掘的货物流向分析。
4.在路径编码的基础上,提出了pid-GSP和pid—PrefixSpan两种基于路径编码的频繁路径挖掘算法,通过挖掘频繁路径编码来挖掘频繁路径,可以有效降低存储空间大小,提高挖掘算法的速度,并有效地挖掘记录移动物品的数据立方体中的频繁路径信息。