• QQ空间
  • 回复
  • 收藏

将公平原则付诸实践:挑战、衡量标准和改进

东方头条 2019-10-06 18:07:06 科技

摘要

随着越来越多的研究人员开始关注并热衷于算法公平,大量研究人员提出了新的度量标准,建议用算法来解决问题,并呼吁人们关注机器学习现有应用中的问题。这项研究极大地扩展了我们对部署机器学习所面临的问题和挑战的理解,但是在观察橡胶如何与路面接触方面的工作还很少。

本文以生产分类系统为例,研究了公平性在机器学习研究中的应用,并对如何度量和解决算法公平性问题提出了新的见解。我们讨论了实现机会均等的公开问题,并描述了我们的公平度量,条件均等,它考虑了交流分配的差异。进一步,我们提供了一种新的方法来改进模型训练过程中的公平性度量,并证明了它在提高现实产品性能方面的效果。

介绍

从几乎所有的标准来看,关于机器学习公平性的引力和研究都呈爆炸式增长:关于如何定义、确定和解决机器学习公平性的研究正在迅速增长,产品的评估也考虑到了这些问题。尽管有这么多的关注,但是关于产品团队如何衡量和解决公平问题的文章却很少发表。在本文中,我们希望阐明在应用生产环境中遵循这些原则和学习所面临的挑战,并提供在此过程中开发的技术和方法。

我们关注的是一种分类方案,在这种情况下,人们会采取相反的行动来对抗那些被认为是正面的例子。这类似于不给一个人抵押贷款,如果一个模型预测他们会违约,使用累犯预测设置保释,或删除网上的评论,如果他们预先判定是滥用。在所有这些情况下,每个条目都与一个用户相关联,如果分类器犯了一个错误,并对它们的示例采取了相反的行动,这对用户是不利的。更一般地说,如果某些用户群体的示例更经常地对他们采取不利行动,就可能影响服务的健康。因此,改善群体公平性既是正确的事情,也对产品的健康很重要。

我们关注机会平等,特别是比较组之间的假阳性率(FPR)。虽然正在校准的模型是一个重要的数学支持,但它没有反映用户的体验和表示对服务的影响。然而,虽然哈特等人提供了伟大的直觉和哲学指导,我们发现在实践中,它留下了明显的回旋余地,度量是如何计算基于如何取样或生成评估数据。此外,如科贝特-戴维斯等人所示,当实现公平性改变时,分配差异可能导致意外的副作用和成本。我们通过度量的一般形式,条件相等来解决这些问题,这使得这些决策更加明确,我们描述了如何在我们的用例中应对这些挑战。图1显示了我们在应用生产设置中的结果摘要。

给定这个度量,我们考虑如何在产品的实际约束下改进它。例如,我们无法在推断时间可靠地观察敏感属性,因此无法使用不同的新方法。此外,与许多工程系统一样,简化和维护能力是核心要求。我们首先探索对抗性训练技术的使用,这已被证明是有效的。然而,正如许多对抗性训练方法一样,我们发现这些方法有时是不稳定的,难以可靠地进行良好的训练。因此,我们提出了一种新的方法——绝对相关区域化方法,这种方法虽然在收敛时不是可证明的最优,但是可以稳定地改进我们的公平性度量算法。

最后,我们在生产模型上测试这些方法,以改进来自两个敏感组的项的度量。我们发现对抗性训练和绝对相关正则化都能显著改善这些指标。

如何设计一个实用的算法公平度量,以及如何在生产系统的约束下改进这个度量,这些悬而未决的问题对于将学术学习应用于工业实践是至关重要的。虽然我们的应用程序是针对手头的应用和制约因素量身定做的,但我们相信它们可以为机器学习实践者提供指导,并提醒人们注意当前文献中的差距,研究人员可以努力解决这些差距,而从业者应该注意这些差距。我们的贡献如下:衡量标准:我们展示了在“正确”衡量机会均等方面的挑战,并描述了我们所满足的、有条件的平等,这使从业者的决定更加明确,并考虑到了不同群体之间考试难度的差异。最优化:我们提供了一种新的正规化技术,称为绝对相关正规化,以鼓励在训练期间机会均等。改进:我们演示了对我们的算法公平性度量的改进。特别是,我们发现传统的模型,可以改善算法的公平性,比如使用更大的模型。其次,我们发现非线性相关正则化可以稳定而有效地改善算法的公平性度量。

背景

我们从一些算法公平性度量的背景材料和相关的工作开始。

指标。许多不同的度量被用来衡量机器学习的公平性,特别是二进制分类。一种被称为个体公平的工作依赖于这样一种观点,即相似的例子应该得到相似的前提条件;但这留下了相似性的问题。另一项工作侧重于群体公平性,根据一个特定的敏感属性对示例进行分组,在群体内编制关于模型预测的统计数据,并在群体之间进行比较。

模型。根据公平性的各种衡量标准,另一种研究探索了如何解决模型中的算法公平问题。有一项工作是建立在对抗性训练的基础上的。这种方法开始于域适应,并迅速应用于公平性。更多近期的工作已经修改了这一点,使其与不同的ML公平性指标相一致。

应用。已发表的关于解决公平问题的大部分工作都集中在公共政策应用上,比如累犯预测最新的实际困难,例如,(Chouldchova2017)讨论如何可以计算指标后条件的其他协变量,如先前的定罪。最近,Holstein等人调查从业者的挑战,以改善行业的公平性。

应用程序设定

我们首先概述一下我们的应用程序,以及它的支持性,这些支持性是我们如何定义和解决任何公平问题的关键。我们将重点放在一个二元分类模型上,该模型可以预测每个示例是遵循还是打破预先确定的产品策略。违反政策的例子有直接针对它们的反向行动;属于政策范围的例子没有针对它们的行动。这是类似于滥用分类文献,常见的贷款违约预测问题,或累犯预测。

由于数据量大,评审人员无法对服务上的所有示例进行评级。更确切地说,我们使用人类评分员对示例的子样本进行评分。人类评分员给出一个得分y属于[0,1],K个评分员给每个例子打分,得出一个平均根据事实得分。我们可以选择哪些例子进行评级,但是每个评级都相对昂贵,因此我们只能得到一小部分数据评级。这种情况尤其严重,因为只有一小部分示例违反了策略,因此,随机抽样示例产生的数据相对较少,而且y值较高。

假设。我们把产品政策作为基本事实。进一步,我们作出了简化的假设,即人的评价者提供了一个无偏的估计地面真值得分。目前,这是很难评价以及如何检测和评估研究员偏见的进一步研究是必要的。我们提供了一个扩大的讨论假设和限制我们的分析在文章的结尾。

基线模型。我们现在考虑基线模型在特定的FPR上的执行效果。该模型是一个多特征集合x上的线性模型。我们考虑两个重要的敏感群体的FPR,我们称之为第一组和第二组。在每种情况下,我们都将FPR与不属于相应用户组(即Not-Group1和Not-Group2)的前组进行比较。由于测量的敏感性,我们用相对论的术语来表示所有的结果。例如,FPR比率定义为:

机器学习公平指标

虽然机会均等为衡量跨组错误用户的成本提供了深刻见解,但它留下了许多实际上需要解决的开放性问题。特别是,应该如何计算的数据度量是过采样?如果数据的分布不同怎么办?我们如何解决这些差异?

数据分布

在分析和实际应用中,一个直接的开放性问题是:如何对数据进行抽样?FPR和FNR只对给定的评价数据分布有意义,我们发现不同的评价数据生成方式会产生显著不同的结果。

上面的分析基于一个数据集,这个数据集是由取样样本构建的,取样样本与使用情况成比例,但是忽略了数据中的许多其他差异。不出所料,不同的用户群体与不同类型的示例相关联,例如与不同的用例或目标受众。例如,在图2a和图2b中,我们发现对于一个特定的人口属性,两个样本用例以及目标受众的分布在两个组之间有很大的不同(每个组都考虑了负面的例子)。

虽然这些数据可以由许多这样的区间分层,但是没有给出如何或何时这样做的原则性方法。在这里,我们从科贝特-戴维斯等人(2017)中获得灵感,他们提出了解决不同风险分布的重要性。然而,科贝特-戴维斯等人(2017)通过模型的预测分析风险,而不是通过一些外部可观察的性质。在这里,我们偏离了我们观察到的真实价值策略y平均多个人类评级。从图2c可以看出,我们发现即使在一些可能是负数(y)的例子中,群体之间的分布也有明显的不同。特别是,敏感子群拥有相对更多接近策略阈值的示例,这表明人工评分员对这些例子与政策的一致性存在不确定性。

依赖于分布的指标

理解和解决这些分布上的差异是解释结果的关键。因此,我们首先给出了条件群公平性度量的形式化描述,然后讨论了我们选择条件的推理和含义。

首先,我们为我们的案例定义了一个有条件的群体公平性:

这个定义没有给出一个具体的度量标准,留下了如何对不同的a进行优先排序的问题。我们可以通过定义机会差距的条件相等来确定这一点:

相关损失

我们提出了一种新的、轻量级的方法,可以比以前的方法更有效地提高期望的公平性指标。在实践中,我们使用

,它是从中取样的一个小批示例。这遵循了一种类似于以往对抗性方法的模式,即根据输出的分布情况增加惩罚,但与所有对抗性方法不同的是,不需要对抗性方法进行培训,我们发现这样做大大提高了实践中的稳定性。尽管最小化这个项并不能证明最小化公平度度量,但是我们发现在实践中我们得到了很好的结果,我们将在下面展示。

实践中的改进

在实践中,我们寻求改进一般机会均等度量和条件均等度量。这里的所有结果都建立在对上述应用程序设置、度量和方法的描述之上。特别是,我们探索了用于改进这个分类器的增量过程,以及每个更改如何影响最终度量。图3和图4分别概述了第一组和第二组的结果,对模型进行10次训练,得到平均结果。

基于DNN模型,我们接下来考虑如何很好的对抗训练可以改善FPR差距。我们训练一个额外的头作为模型最后一个隐藏层的输入,并试图预测敏感属性s,而模型试图学习一个独立于s的表示,我们只使用其中的数据,因为我们只关心FPR。

正如前面提到的,对抗性训练已经得到了很好的研究,我们看到它有很强的性能,但是从工程学的角度来看,由于它在训练中的不稳定性,这是一个挑战。因此,我们追求绝对相关正则化以稳定训练。我们在图3d中观察到,使用绝对相关规则化使FPR差距大致保持不变(1.05x)。在提高系统稳定性的同时,保持较低的FPR间隙具有很高的实用价值。

未来方向

我们关注的是如何改进一个直接影响用户体验的个体模型,但并不是所有机器学习的应用都符合这些设置。为了扩大适用范围,我们认为有一些领域值得更多的研究关注。

人工评分员:这项工作,像大多数算法公平性文献一样,假设标签是没有偏见的。我们相信需要更多的关注来了解是否和何时在众包评级中存在偏见,以及如何消除偏见。

二进制操作:我们只考虑直接针对示例执行二进制操作的情况(在已知的阈值上)。当预测被视为连续评分或与其他信号一起使用时,评估其对用户体验的影响就变得更加困难,这个方向的进一步研究很有必要。

我们根据系统中当前的例子来评估我们的系统。然而,这种分布当然会受到系统先前性能的影响。以前没有得到很好支持的用例在我们的示例中可能代表不足。不幸的是,我们不知道有什么方法可以推断出在不同的先前系统下可能存在的示例的分布情况。因此,我们目前的重点是评估和改进当前状态的度量,相信这将改善系统的性能的敏感子群,我们可以继续评估的性能,随着子群的发展。

讨论

在这项工作中,我们提供了关于如何将算法公平原则应用于产品分类器的详细信息。特别是,我们探讨了机会均等性如何取决于数据的取样方式,以及不同的群体如何拥有明显不同的数据分布。为了解决这些分布差异的问题,我们提出了一种考虑实例难度的通用评价方法。此外,我们还提出了一种新的改进算法公平性的方法——绝对相关正则化,我们发现它比对抗性训练更稳定。我们证明了这些算法能够改善生产分类器中两个不同组的FPR间隔,并分析了这些不同的训练过程对模型性能的影响。

引用

Beutel A, Chen J, Doshi T, et al. Putting fairness principles into practice: Challenges, metrics, and improvements[J]. arXiv preprint arXiv:1901.04562, 2019.

致谢

本文由南京大学软件工程系2019硕士生张朱佩田翻译转述。

感谢国家自然科学基金项目(重点项目)智能软件系统的数据驱动测试方法与技术(61932012)资助