人工智能和机器学习偏见具有危险的含义

以下是开源技术如何帮助解决这个问题。
439 位读者喜欢这篇文章。
Good intentions, misrepresentation, and deception

Opensource.com

算法在我们世界中无处不在,偏见也是如此。从社交媒体新闻提要到流媒体服务推荐再到在线购物,计算机算法——特别是机器学习算法——已经渗透到我们日常生活的方方面面。至于偏见,我们只需要审视 2016 年的美国大选,就能理解它渗透我们社会之深——无论是隐性的还是显性的。

然而,经常被忽视的是这两者之间的交集:计算机算法本身的偏见。

与我们许多人可能认为的相反,技术并非客观。人工智能算法及其决策过程直接受到构建它们的人的影响——他们编写的代码、他们用来“训练”机器学习模型的数据,以及他们在模型完成后如何压力测试模型。这意味着程序员的价值观、偏见和人类缺陷都反映在软件中。例如,如果我给图像识别算法输入我实验室中仅有白人研究人员的面孔,它将无法识别非白人面孔为人脸。这样的结论并非“愚蠢”或“不成熟”的人工智能的结果,而是训练数据中的偏见:缺乏多样化的面孔。这会带来危险的后果。

这样的例子不胜枚举。全国各地的州法院系统使用“黑匣子”算法来建议对罪犯的刑期。这些算法对黑人个体存在偏见,因为训练它们的数据存在偏见——因此它们建议更长的刑期,从而使监狱中现有的种族差异永久化。所有这一切都发生在客观、“科学”决策的幌子下。

美国联邦政府使用机器学习算法来计算福利金和其他类型的补贴。但是,关于这些算法的信息,例如它们的创建者和它们的训练数据,极其难以找到——这增加了公职人员在偏见下运作并系统性地支付不公平款项的风险。

这样的例子不胜枚举。从 Facebook 新闻算法到医疗保健系统再到警察随身摄像头,作为一个社会,我们正面临着将我们的偏见——种族主义、性别歧视、仇外心理、社会经济歧视、确认偏见等等——植入到将被大规模生产和大规模分发的机器中的巨大风险,而这些机器将在人们感知的技术客观性的面纱下运行。

这种情况必须停止。

虽然我们绝不应该停止对人工智能的研究和开发,但我们需要放慢其发展速度,以便我们谨慎行事。算法偏见的危险已经太大了。

我们如何对抗算法偏见?

对抗算法偏见的最佳方法之一是审查输入机器学习模型本身的训练数据。正如 微软的研究人员 指出的那样,这可以采取多种形式。

数据本身可能具有倾斜的分布——例如,程序员可能拥有更多关于美国出生的公民而不是移民的数据,以及关于富有的男性而不是贫穷的女性的数据。这种不平衡将导致人工智能对我们社会的实际代表情况做出不正确的结论——即,大多数美国人是富有的白人商人——仅仅是因为机器学习模型进行统计相关性的方式。

即使男性和女性在训练数据中得到平等代表,也可能出现这种情况,即代表本身会导致对人性的偏见理解。例如,如果所有“男性职业”的图片都是 CEO,而所有“女性职业”的图片都是秘书(即使实际上 CEO 中男性多于女性),人工智能可能会得出结论,女性天生不应该成为 CEO。

我们可以想象类似的问题,例如,执法人工智能检查媒体中犯罪的表示,许多研究表明,犯罪的表示令人震惊地偏向黑人和拉丁裔公民。

训练数据中的偏见也可能采取许多其他形式——不幸的是,这里无法充分涵盖。尽管如此,训练数据只是一种审查形式;同样重要的是,人工智能模型在完成后要进行“压力测试”,以找出偏见。

如果我们向摄像头展示一张印度面孔,它是否会被正确识别?即使求职者条件相同,我们的人工智能是否不太可能推荐来自市中心的求职者,而不是来自郊区的求职者?我们的恐怖主义算法如何回应关于白人国内恐怖分子和伊拉克恐怖分子的情报?我们的急诊室摄像头可以调出儿童的医疗记录吗?

这些显然是在数据本身中难以解决的问题,但我们可以通过全面的测试开始识别和解决这些问题。

为什么开源非常适合这项任务?

开源技术和开源方法都具有极大的潜力,可以帮助对抗算法偏见。

现代人工智能由开源软件主导,从 TensorFlow 到 IBM Watson,再到像 scikit-learn 这样的软件包。开源社区已经证明在开发健壮且经过严格测试的机器学习工具方面非常有效,因此,同一个社区也可以有效地将反偏见测试构建到同一个软件中。

例如,哥伦比亚大学和利哈伊大学的 DeepXplore 等调试工具使人工智能压力测试过程既广泛又易于导航。这个和其他项目,例如 麻省理工学院计算机科学与人工智能实验室 正在进行的工作,开发了开源社区应该采用的敏捷和快速原型设计。

开源技术也已被证明在审查和整理大型数据集方面非常有效。没有什么比开源工具在数据分析市场(Weka、Rapid Miner 等)中的主导地位更能说明这一点了。用于识别数据偏见的工具应由开源社区设计,这些技术也应应用于已发布在 Kaggle 等网站上的大量开放训练数据集。

开源方法本身也非常适合设计对抗偏见的流程。使关于软件的对话公开化、民主化并与社会公益保持一致,对于解决部分原因是由于完全相反的情况——封闭的对话、私有软件开发和非民主化的决策——而引起的问题至关重要。如果在线社区、公司和学术界在接触机器学习时能够采用这些开源特性,那么对抗算法偏见应该会变得更容易。

我们所有人如何参与进来?

教育至关重要。我们都认识可能没有意识到算法偏见但关心其对法律、社会正义、公共政策等影响的人。与这些人交谈并解释偏见是如何形成的以及为什么重要至关重要,因为启动这些对话的唯一方法是自己启动它们。

对于我们这些以某种身份从事人工智能工作的人——作为开发人员、在政策方面、通过学术研究或以其他身份——这些对话甚至更加重要。那些正在设计未来人工智能的人需要了解偏见在今天带来的极端危险;显然,将反偏见流程整合到软件设计中取决于这种意识。

最后,我们都应该围绕道德人工智能构建和加强开源社区。无论是为软件工具做出贡献、对机器学习模型进行压力测试,还是筛选千兆字节的训练数据,现在是我们利用开源方法的力量来对抗我们数字时代的最大威胁之一的时候了。

User profile image.
贾斯汀·谢尔曼是杜克大学的高级研究员,杜克大学法学院杜克法律与技术中心的研究员,以及新美国网络安全政策研究员。

6 条评论

对我来说,当人工智能和机器学习应用于人时,最大的风险之一是侵犯隐私。有时,将此类事物转化为现实世界的等价物有助于理解其含义。如果您正被一些私家侦探跟踪,他们监控您的一举一动、您的每一次在线购买以及您与现实世界或在线其他人的各种联系,会怎么样?调查员说他只是为了合法目的并为了您和他客户的整体利益而使用这些信息,但他随后将这些信息出售给其他方。这就是以消费者为基础的人工智能的发展方向。

绝对是这样,格雷格 - 我完全同意。当涉及到依赖于通常包含个人身份信息(例如,在医学、医疗保健、金融、执法等领域中使用)的大规模数据集的机器学习算法时,隐私是一个巨大的担忧。沿着这条思路,还存在一个问题,即我们如何在仍然 (a) 保留人工智能模型理解数据的能力,以及 (b) 确保恶意行为者无法对网络执行对抗性注入的同时,对 PII 进行标记化或匿名化 - 例如,将恶意训练数据馈送到云中的“通用”自动驾驶汽车神经网络,随着时间的推移,这可能会导致汽车撞到人。正如您所说,考虑到我们的世界正朝着这个方向发展,所有这些以及更多都是一个严重的问题!

回复 ,作者:格雷格·P

“这意味着程序员的价值观、偏见和人类缺陷都反映在软件中。”

如果媒体能够将这个真相告知公众就好了,媒体通常将算法、软件和 IT 系统描绘成有时几乎是神奇的、公正和完美的(除非被犯罪团伙破解)具有自我智能的奇迹,他们永远不会做任何在道德或伦理上错误的事情,并且与他们的创造者没有任何联系。

就像民意调查和调查的报道一样,当民意调查和调查中的问题被设计(有时甚至没有意识到)来引出民意调查组织期望的回应,以证明对某些政策或其他政策的支持或缺乏支持时,它们被视为公众情绪的某种公正晴雨表。

说得好。这就是为什么我们教育决策者和公众(以及,可以说,甚至是许多技术开发人员自己)技术并非天生客观如此重要的原因 - 1 和 0 不会接受有偏见的人类感知,然后只是“消除”它们的偏见。

回复 ,作者:利亚姆·墨菲 (未验证)

那么对女权主义、身份政治和文化马克思主义的偏见呢?

我同意我们都应该围绕道德人工智能构建和加强开源社区。

有趣的文章,贾斯汀

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
 

每周在您的收件箱中获取亮点。

© . All rights reserved.