论文部分内容阅读
特征选择是统计模式识别、机器学习和数据挖掘等领域的一个关键问题,是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。特征选择不仅能够降低特征维数,同时还可以作为知识发现工具发现自然模型的真实变量。此外,隐私保护目前也是数据挖掘领域的研究热点。在知识发现的过程中,如何保护个人的隐私信息已经成为众多学者所关心的问题。但当前的隐私保护数据挖掘研究更多地关注隐私保护分类和回归,缺少对隐私保护特征选择的研究。本文主要基于差分隐私,研究了保护数据隐私的特征选择方法。针对基于局部学习的特征权重算法,分别利用Output Perturbation和Objective Perturbation策略增加特征选择算法的隐私保护性能,并从理论上分析算法的正确性以及通过实验验证算法的效用性。大量现实数据集的实验结果表明,在相同环境下(数据集、实验参数、分类器等),基于Objective Perturbation差分隐私特征选择算法具有更好的隐私保护效果。此外,本论文还基于Output Perturbation策略,研究了两类隐私保护的集成特征选择方法。在大量的数据集上,结合不同分类算法(最近邻和支持向量机),验证了基于差分隐私的集成特征选择算法性能。实验表明,在相同环境下(数据集、实验参数、分类器等),先加隐私保护后集成算法的隐私保护效果要优于先集成后加隐私保护算法。