论文部分内容阅读
充分考虑记录之间的距离以及记录本身权重值对聚类种子选择的影响,建立聚类种子选取模型,以获得更好的聚类结果。提出基于改进变长聚类的多敏感属性概率κ-匿名算法,以提高数据可用性;提出融合κ-means与改进变长聚类算法的概率κ-匿名算法,采用多线程并行技术,在不降低信息损失度与匿名质量的前提下,提升处理大数据集的效率。实验结果表明,所提算法效率较高,其生成的匿名数据集具有较好的数据可用性。