人工智能 (AI) 在我们的日常生活中变得越来越普遍。虽然人工智能系统旨在为用户提供便利,但也有许多自动化工具出错的例子,导致严重的后果。人工智能系统中发生了什么导致错误和有害的结论?很可能是糟糕的人工智能与缺乏人工监督的戏剧性结合。我们作为一个社会如何防止人工智能伦理失败?
20 多年来,开源社区已经拥有清晰的流程来处理软件中的错误(“漏洞”)。《开源定义》牢固地确立了开发人员的权利和用户的权利。存在框架、许可证以及对需要做什么的法律理解。当您发现错误时,您知道该责怪谁,您知道在哪里报告它,并且您知道如何修复它。但是,当涉及到人工智能时,您是否对修复错误、误差或偏见需要做什么有同样的理解?
实际上,人工智能的许多方面并不完全符合《开源定义》。
为人工智能划定界限
训练人工智能系统的数据与软件本身之间的界限是什么?在许多方面,人工智能系统就像黑匣子:人们并不真正了解内部发生了什么,而且对于系统如何得出特定结论的洞察力也很少。您无法检查内部负责做出判断的网络。那么,开源原则如何应用于这些做出自动化决策的“黑匣子”?
首先,你需要退后一步,了解人工智能自动化决策过程的构成。
人工智能决策过程
人工智能过程始于收集大量的训练数据——从互联网上抓取、标记和编目的数据,并将其输入模型以教导模型如何自主决策。然而,收集一组训练数据的过程本身就存在问题。这是一项非常昂贵且耗时的任务,因此大型公司更有能力拥有资源来构建大型训练集。像 Meta(Facebook)和 Alphabet(Google)这样的公司长期以来一直在收集人们的数据和图像。(想想您在 Facebook 甚至 MySpace 存在之前上传的所有照片。我已经记不清我在网上放了多少照片!)本质上,互联网上的任何东西都是数据收集的公平对象,而今天的手机基本上是实时传感器,将数据和图像馈送到少数大型公司,然后再馈送到互联网抓取工具。
检查进入系统的数据只是触及了表面。我还没有讨论模型和神经网络本身。人工智能模型中有什么?您如何知道何时与机器人聊天?您如何检查它?您如何标记问题?我们如何修复它?如果它失控,我们如何阻止它?
难怪世界各国政府不仅对人工智能及其可能带来的好处感到兴奋,而且也非常担心风险。我们如何互相保护,以及我们如何要求公平的人工智能?我们如何建立不仅是规则和条例,还有帮助我们所有人定义和理解可接受行为的社会规范?我们现在才开始提出这些问题,并且才刚刚开始识别所有需要检查和考虑的部分。
到目前为止,还没有像《GNU 宣言》和后来的《开源定义》那样,可以指导利益相关者之间对话的指导原则或护栏。到目前为止,每个人(公司、政府、学术界和其他机构)都以自己的节奏前进,并且主要是为了自己的自身利益。这就是为什么开源促进会 (OSI) 挺身而出,发起合作对话。
开源促进会
开源促进会启动了 Deep Dive: AI,这是一个由三部分组成的活动,旨在揭示人工智能系统的特性,建立对哪里需要护栏的理解,并在人工智能的背景下定义开源。以下是 OSI 迄今为止发现的一些内容。
版权
人工智能模型可能不受版权保护。它们应该受保护吗?
开发者、研究人员和公司公开分享模型,其中一些带有开源软件许可证。这是正确的做法吗?
人工智能的输出可能不受版权保护。这提出了一个有趣的问题:我们是否要将版权应用于这种新型的人工制品?毕竟,反版权是作为版权的变通方法而发明的。也许这是一个创建替代法律框架的机会。
新 Stable Diffusion 模型的发布引发了关于模型输出的问题。Stable Diffusion 是在大量图像上训练的,包括迪士尼拥有的图像。当您要求它创建一张米老鼠去美国国会的照片时,它会吐出一张看起来完全像米老鼠在美国国会大厦前的图像。该图像可能不受版权保护,但我敢打赌,一旦有人出售印有这些照片的 T 恤,迪士尼就会对此发表意见。
毫无疑问,我们很快就会有一个测试案例。在此之前,请在 Deep Dive: AI 播客《版权、自拍猴子、上帝之手》中深入了解版权难题。
监管
欧盟在人工智能监管方面处于领先地位,其方法很有趣。《人工智能法案》是一篇有趣的读物。它仍处于草案形式,可能还需要一段时间才能获得批准,但其法律前提是基于风险。就目前而言,欧盟立法将要求进行广泛的测试和验证,即使是对仍处于初步研究阶段的人工智能概念也是如此。在 Deep Dive: AI 播客《解决人工智能黑匣子问题》中了解更多关于欧盟立法方法的信息。
数据集
更大的数据集引发了问题。今天用于训练人工智能模型的大多数大型公共可用数据集都包含从网络上获取的数据。这些数据集是通过抓取大量公开可用的数据以及在各种许可下向公众提供的数据来收集的。使用这些原始数据的法律条件尚不明确。这意味着机器正在组装来源可疑的拍字节图像,这不仅是因为与这些图像、代码和文本的使用相关的法律权利存在疑问,还因为内容通常是非法的。此外,我们必须承认,这些互联网数据是由世界上较富裕的人口群体——能够访问互联网和智能手机的人——产生的。这本身就会歪曲数据。在 Deep Dive: AI 播客《当黑客攻击人工智能:科幻——还是未来?》中了解更多关于这个话题的信息。
损害控制
人工智能可能会造成真正的损害。深度伪造就是一个很好的例子。深度伪造人工智能工具使您能够将某人的脸叠加到另一个人的身体上。例如,它们是电影行业中流行的工具。不幸的是,深度伪造工具也被用于邪恶的目的,例如让人看起来处于不利的境地,或传播恶意的虚假信息。在 Deep Dive: AI 播客《建立创造性限制以遏制人工智能滥用》中了解更多关于深度伪造的信息。
另一个例子是“停止按钮”问题,即一台经过训练以赢得游戏的机器可能会变得非常清楚它需要获胜,以至于它变得抗拒被停止。这听起来像科幻小说,但这是一个已确定的数学问题,研究界已经意识到了这个问题,并且没有立即的解决方案。
硬件访问
目前,还没有真正用于人工智能的开源硬件堆栈。只有极少数精英可以访问进行严肃的人工智能训练和研究所需的硬件。人工智能消耗和生成的数据量以太字节和拍字节为单位,这意味着需要特殊的硬件才能对如此大的数据集执行快速计算。具体来说,如果没有图形处理单元 (GPU),人工智能计算可能需要数年而不是数小时。不幸的是,构建和运行这些大型人工智能模型所需的硬件是专有的、昂贵的,并且需要特殊的知识才能设置。只有少数组织有资源来使用和管理这项技术。
个人开发者根本没有资源购买运行这些数据集所需的硬件。一些供应商开始发布带有开源代码的硬件,但生态系统尚不成熟。在 Deep Dive: AI 播客《为什么 Debian 不会很快分发人工智能模型》中了解更多关于人工智能硬件要求的信息。
人工智能挑战
开源促进会今天保护开源免受许多威胁,但也预见到未来的挑战,例如人工智能。人工智能是一个很有前途的领域,但它也可能带来令人失望的结果。需要一些人工智能护栏来保护创造者、用户和整个世界。
开源促进会正在积极鼓励对话。我们需要了解问题和影响,并帮助社区建立确保人工智能对我们所有人都有益的共同原则。加入对话,参加 10 月 11 日开始的四场 Deep Dive: AI 小组讨论。
评论已关闭。