6 步停止 AI 产品开发中的伦理债务

人工智能中的机器偏见是一个已知且不可避免的问题,但并非无法管理。
208 位读者喜欢这篇文章。

官方消息:人工智能 (AI) 并非我们期望的公正天才。

Alphabet(谷歌的母公司)在其最新的年度报告中警告,对其产品的伦理担忧可能会损害未来的收入。企业家 Joy Buolamwini 发起了安全面部承诺,以防止滥用面部分析技术。

在伦敦圣乔治医院医学院被发现曾使用人工智能,无意中筛选掉合格的女性候选人几年后,亚马逊去年秋天废弃了一款招聘工具,此前机器学习 (ML) 专家发现它也在做同样的事情

我们已经痛苦地认识到,用人工智能构建的技术像人一样带有偏见。如果不加以控制,用于训练此类产品的数据集可能会对其最终用户造成生死攸关的后果

例如,想象一下一辆无法识别某些口音的人的指令的自动驾驶汽车。如果用于训练该汽车技术的数据集没有接触到足够多的语音变化和语调,它可能会冒着不将所有用户完全视为人类的风险。

好消息是:人工智能中的机器偏见是不可避免的,但它并非无法管理。就像产品和开发团队努力减少技术债务一样,您也可以降低伦理债务的风险

以下是您的技术团队今天可以开始采取的六个步骤

1. 预先记录您的优先级

减少产品中的伦理债务需要您在产品规范阶段回答两个关键问题

  • 您将使用哪些公平方法?
  • 您将如何优先考虑它们?

如果您的团队正在构建基于机器学习的产品,仅仅被动地修复错误或将产品从货架上撤下是不够的。相反,在您的技术规范中回答这些问题,以便从产品生命周期的开始就将其纳入考虑。

2. 在公平约束下训练您的数据

这一步很棘手,因为当您尝试控制或消除直接和间接偏见时,您会发现自己陷入两难境地。

如果您仅在非敏感属性上进行训练,您将消除直接歧视,但会引入或加强间接偏见。

但是,如果您为每个敏感特征训练单独的分类器,您将重新引入直接歧视。

另一个挑战是,检测只能在您训练模型后发生。当这种情况发生时,唯一的补救措施是报废模型并从头开始重新训练。

为了降低这些风险,不要仅仅衡量敏感群体中接受和拒绝的平均强度。相反,使用限制来确定模型中包含或不包含的内容。当您这样做时,歧视测试将表示为对学习过程的限制。

3. 在整个产品生命周期中监控您的数据集

开发人员根据他们希望模型遇到的数据构建训练集。但许多人没有监控他们创造的成果从现实世界接收到的数据。

机器学习产品的独特之处在于它们不断接收数据。新数据允许为这些产品提供动力的算法不断改进其结果。

但是,此类产品在部署中经常遇到与生产中训练的数据不同的数据。在模型本身未经重新验证的情况下更新算法也很常见。

如果您任命某人监控算法中数据的来源、历史和上下文,这种风险将会降低。此人应进行持续审核以查找不可接受的行为。

应在保持产品规范中定义的可接受的准确度水平的同时,尽可能减少偏差。如果检测到不可接受的偏差或行为,则应将模型回滚到首次看到偏差之前的早期状态。

4. 使用标记的训练数据

我们生活在一个拥有数万亿张图像和视频的世界中,但大多数神经网络都无法使用这些数据,原因只有一个:大多数数据都没有被标记。

标记是指图像中存在的类别及其位置。当您标记图像时,您会分享哪些类别存在以及它们的位置。

这听起来很简单,直到您意识到在人群照片中围绕每个人绘制形状,或在高速公路上围绕每个人绘制框需要多少工作。

即使您成功了,您也可能会仓促地进行标记并草率地绘制形状,从而导致训练不良的神经网络。

好消息是,越来越多的产品上市,因此它们可以减少标记的时间和成本。

例如,Brain Builder 是 Neurala 的数据注释产品,它使用 TensorFlow 和 Caffe 等开源框架。其目标是帮助用户管理和注释他们的训练数据。它还旨在为数据集带来多样化的类别示例——这是数据训练的另一个关键步骤。

5. 使用多样化的类别示例

训练数据需要类别的正面和负面示例。如果您想要特定的对象类别,您也需要负面示例。这(希望)模仿算法在实际应用中将遇到的数据。

考虑数据集中的“房屋”示例。如果算法仅包含北美房屋的图像,它将不知道识别日本、摩洛哥或其他国际地区的房屋。因此,其“房屋”概念是有限的。

Neurala 警告说:“大多数 AI 应用程序需要标记数千张图像,并且由于数据标记成本与标记所花费的时间成正比,因此仅此步骤通常每个项目就需要花费数万到数十万美元。”

幸运的是,2018 年开源 AI 数据集的数量大幅增加。Synced 有一个有用的10 个数据集的综述——从多标签图像到语义解析——这些数据集是去年开源的。如果您正在按行业查找数据集,GitHub 有一个更长的列表

6. 关注主体,而非背景

监控 ML 数据集的技术领导者应旨在了解算法如何对数据进行分类。这是因为 AI 有时会关注训练集中多个目标共享的无关属性。

让我们首先看看下面有偏差的训练集。狼被标记为站在雪地里,但模型没有显示狗的图像。因此,当引入狗时,模型开始将它们标记为狼,因为两种动物都站在雪地里。在这种情况下,AI 过分强调了背景(雪景背景)。

 

Wolves in snow

相比之下,这是一个来自 Brain Builder 的训练集,它专注于主体狗。在监控您自己的训练集时,请确保 AI 更重视每个图像的主题。如果您看到图像分类器声明下面的一只狗是狼,您需要知道输入的哪些方面导致了这种错误分类。这是一个检查您的训练集并确认数据准确性的信号。

 

Dogs training set

减少伦理债务不仅仅是“正确的事情”——它还可以减少技术债务。由于程序化偏见很难检测,因此从生命周期的开始就努力减少它,将使您无需从头开始重新训练模型。

这不是一项容易或完美的工作;技术团队将不得不在公平性和准确性之间做出权衡。但这正是产品管理的本质:基于对产品及其最终用户最有利的因素做出妥协。

战略是所有强大产品的灵魂。如果您的团队从一开始就包含公平措施和算法优先级,您将领先于竞争对手。


Lauren Maffeo 将在 DrupalCon 西雅图站(2019 年 4 月 8-12 日)上展示 从您的 AI 数据集中消除无意识偏见 演讲。


接下来阅读什么
Photograph of Lauren, a white woman with long brown hair, standing in front of a tree wearing a grey coat.
Lauren Maffeo 曾报道过全球技术领域并在其中工作。她的职业生涯始于自由记者,在伦敦为《卫报》和 The Next Web 报道技术趋势。如今,她在 Steampunk 担任服务设计师,Steampunk 是一家以人为本的设计公司,为政府机构构建公民技术解决方案。

1 条评论

我几乎想知道人工智能是否会发展到需要创建某种“魔鬼代言人”人工智能的程度,这种人工智能将有能力分析某些人工智能过程,寻找偏见或明显的错误。短期答案是创建可以被质询的人工智能过程,以了解结论是如何得出的。

© . All rights reserved.