【摘 要】
:
近年来,机器学习越来越受到各界人士的关注。然而,机器学习系统容易受到历史数据的影响,并对少数群体,弱势群体和历史上处于不利地位的群体产生歧视行为。因此,有必要使用公平性准则来约束机器学习系统在某些应用场景中的行为,例如贷款,就业,刑事司法和广告,并期望保护弱势群体,从而在分类公平性和准确性之间达到一个平衡。在公平性机器学习领域,预防歧视的目的在于执行预测任务之前消除不公平训练集对于分类器的影响。目
论文部分内容阅读
近年来,机器学习越来越受到各界人士的关注。然而,机器学习系统容易受到历史数据的影响,并对少数群体,弱势群体和历史上处于不利地位的群体产生歧视行为。因此,有必要使用公平性准则来约束机器学习系统在某些应用场景中的行为,例如贷款,就业,刑事司法和广告,并期望保护弱势群体,从而在分类公平性和准确性之间达到一个平衡。在公平性机器学习领域,预防歧视的目的在于执行预测任务之前消除不公平训练集对于分类器的影响。目前,有大量的研究关于预防机器学习模型中的歧视现象。但是如何设计出公平有效的机器学习模型,即在保证分类公平性的同时,尽量不损害预测准确度仍然是一个研究重点。本文从两方面入手,有效解决了分类器中的歧视问题。第一部分,为了保证分类公平性和准确性,本文通过发现和消除原始数据集中的歧视样本来寻找生成公平数据集的方法,即提出了一种基于分类间隔的加权方法用于处理二分类任务中的歧视现象,并在demographic parity和equalized odds公平性判定准则上实现分类公平。为了不影响分类准确性,本文基于最大间隔原理将样本投影之后选出目标集,对于目标集中的每个样本,通过加权距离度量方法判定该样本是否具有歧视性,并进行修正。通过在三个真实数据集上与已有方法进行实验对比,本文的方法能够获得更好的分类公平性和准确性,并且不局限于特定的公平性判定准则和分类器。第二部分,由于很多传统的公平性机器学习模型只考虑敏感属性,而忽略由于属性之间的关联性导致非敏感属性隐含敏感信息,从而造成训练的模型依然存在分类歧视。本文为了消除由于属性之间的关联性造成的隐性歧视,提出了一种基于InfoGAN的对抗公平表示模型。模型训练中将公平性约束条件与精度损失结合,生成新的对抗编码表示。为了降低加入公平性约束对模型精度的影响,对模型的输入数据进行预处理。根据数据集中样本的分布特性筛选出对标签预测有决定性作用并且与敏感属性关联性比较小的属性组成隐含因子,剩余维度由随机噪声补齐。另外,通过生成器与判别器,生成器与对抗器之间相互博弈,使得编码之后的样本中不包含敏感属性的信息,有效的消除了由于属性之间关联性造成的潜在歧视。
其他文献
由于高光谱图像自身包含大量地物的光谱信息和空间信息,可以利用高光谱图像每个像素点对地物进行识别和分类,所以高光谱遥感图像技术在最近几年得到了研究学者的广泛关注。为了获取更加抽象和深层次的特征信息,可以使用深度学习方法去构建一个合理有效的神经网络来进行特征提取。论文主要采用3D卷积联合注意力机制网络以及利用多特征学习方法来构建网络对高光谱图像进行分类研究,之后又利用生成对抗神经网络对高光谱图像进行分
农业科技推广服务作为农业科技成果转化的必要环节之一,其推广质量成为社会各界关注的问题。为了实际了解法库县农业科技推广现状,为了从根本上发现其存在的问题和产生问题的
时滞混沌系统是含有多个正Lyapunov指数的超混沌系统,与非时滞混沌系统相比,它具有更为复杂的动力学行为,具有广泛的应用空间。时滞混沌系统的同步控制被更广泛的应用于信息
随着电子设备的广泛普及和互联网技术的快速发展,人们的日常生活中的信息传递越来越多的以图像的形式进行。图像中包含丰富的信息,其中文本是一类对理解图像有着重要作用的信息,准确的检测出图像中文本有助于识别文本和理解图像。受益于深度学习的迅猛发展,检测场景图像中出现的文本的技术也取得了长足的进步,很多基于深度学习的场景文本检测算法能够非常有效的检测出场景图像中的文本,但是这些有效的方法都是以大型深度神经网
随着国民财富积累和资管市场的发展,如今资产托管业务也由最初单一的证券投资基金托管逐步扩展到了证券集合理财、信托、定向资产管理、基金专户、保险、境外机构资产托管、社会保障等委托资产托管业务领域,成为银行业极具发展潜力的中间业务,占金融机构存款总量的比重逐年上升。为了更好地履行监管部门赋予的托管职能,为广大投资者、资产管理人提供更加优质、高效的服务,建设一套高性能、易扩展的资产托管系统是当务之急。结合
双氧水作为一种重要的绿色化学品有着广泛的应用需求。蒽醌法是工业制备双氧水最主要的方法之一,其中以蒽醌加氢和氢蒽醌氧化为关键工段。然而,由于氢气和氧气为难溶性气体,
天文望远镜是天文观测的重要工具,随着科学技术的发展,天文学界对天文望远镜的分辨能力提出了更高的要求。根据瑞利判据可知:望远镜的口径越大,系统空间分辨率越高。然而受制造、加工、检测等技术的限制,目前单一主镜达到8m量级已是极限。拼接式主镜的设计使超大口径望远镜的构想成为现实,但如何选择合适的构型以及如何检测和调整拼接失调所引起的共相误差等成为必须要解决的难题。为使拼接式望远镜的分辨率接近等效口径的衍
在现代公司治理中,高管的职务消费行为普遍存在。在职消费作为一项非货币性激励,对货币薪酬激励安排发挥着替代和补充作用,在管理层的薪酬契约安排中占有重要的地位。高管合理的职务消费能有助于提高企业的经济绩效,然而由于货币薪酬契约的不完备和缺乏有效的监督机制,管理者可能利用更具隐蔽性的在职消费来攫取个人经济效用的最优化,从而产生不合理的在职消费行为,加重公司的代理问题。因此,探究和分析能够规范和约束高管超
尘埃等离子体由电子、离子、中性气体和尘埃颗粒组成,是近年来等离子体物理领域中一个比较活跃的分支。在等离子体环境中,尘埃颗粒由于与等离子体电子、离子相互碰撞而充电,同时与等离子体相互作用吸收能量并且转化为颗粒动能。然而尘埃颗粒通常随机运动,获得的能量不能够有效的收集和利用。将尘埃颗粒的随机运动整流形成定向运动,无论是对尘埃等离子体物理基础研究还是能量收集方面潜在的应用都具有重要研究价值。我们前期提出
随着互联网的飞速发展,云存储技术已经逐渐被人们接受,但是该技术不光给人们带来了便利,同时也带来了新的安全问题,即上传到云端的照片容易暴露个人隐私,存在巨大的安全隐患。于是,作为一种在隐藏载体信号原始内容的同时还能够嵌入额外信息的技术,加密图像中的可逆信息隐藏(Reversible Data Hiding in Encrypted Images,RDHEI)算法受到了国内外众多研究团队的关注。而本文