论文部分内容阅读
Skyline查询常用在数据挖掘和决策支持系统中,用于数据的多条件优化。但早期有关skyline查询的研究仅限于确定数据集,不确定数据流上skyline计算问题刚刚起步。而且,不同用户所关注的维度也可能不尽相同,使得不确定数据流上的skyline查询变得更加复杂,已有算法很难满足实际需求。本文将不确定数据流上概率skyline查询作为研究重点,具体工作包括以下几个方面:首先,分析了当前不确定数据流全空间上skyline查询算法SOPDS,并对其作出进一步优化。一方面,通过减少选择补偿次数和支配比较次数缩短算法的计算时间;另一方面,通过延迟更新对象被支配的概率来提高算法的查询效率。其次,根据不同用户查询维度可能不同的特点,设计了不确定数据流子空间上概率skyline查询算法PSSQ。PSSQ算法采用规则网格索引结构,通过格间的三种支配关系来减少对象间的比较次数,并巧妙地利用了格在全空间与各子空间上的概率上下界关系,从而节约子空间skyline计算的时间开销。最后,为保证用户实时观察查询结果,设计了不确定数据流子空间上连续概率skyline查询算法CPSQS。CPSQS算法是对PSSQ的扩展,其初始化模块与PSSQ算法基本一致。在CPSQS算法的维护阶段,通过将格划分为影响区域和自由区域来减少算法的支配比较次数,从而减少算法的维护时间。本文对不确定数据流上概率skyline查询算法进行的研究,在用户偏好系统、多条件决策系统以及数据挖掘与可视化中具有一定的现实意义。在不确定数据管理越来越受重视的今天,本文的工作可以促进skyline查询在不确定数据环境下的应用。