论文部分内容阅读
结合Rough Set理论研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。经典的RoughSet算法要求数据常驻内存,因此不能有效地处理海量数据。为了能够直接处理海量数据集,根据最佳分割的定义,结合属性约简的思想,提出基于属性约简的粗糙集海量数据分割算法(Mass Data Partition for Rough Seton Attribute Reducdon,MD-PRS—AR)。通过实验表明,MDPRS—AR算法的分割效率比传统的算法约高70%,而且与处理整个数据集的算法相比,正确性损