开放数据集需要强大的隐私保护

当开放数据中的隐私保护不足或不存在时,存在很大的滥用潜力。
122 位读者喜欢这篇文章。
metrics and data shown on a computer screen

Opensource.com

机器学习系统和其他算法越来越多地依赖 Kaggle 等网站上的开放数据集来运行数据科学应用程序和训练机器学习模型。 这不仅适用于某个特定工作领域,而且适用于从 医疗分析犯罪预测 再到 自然语言处理 的各种应用。

当下载包含成千上万、数十万甚至数百万个数据点的大型文件时,人们很容易忘记每条信息背后的个人。 但是,这些数据集背后是人类,并且随着越来越多的数据由私营和公共机构公开透明地发布——无论是为了帮助研究、遵守披露协议还是其他原因——我们需要强大的隐私保护措施来保护数据集中包含的人员的信息,无论他们是否同意。

一段时间以来,所谓的“匿名化”是为数据集添加隐私保护的答案。 在此过程中,例如,个人的姓名将被替换为随机数字,而与该个人相关的其余属性将保持不变。 完全没问题,对吧? 错了。

匿名化并不是确保更大数据集中个人数据受到保护的可靠方法。 正如安全专家 Bruce Schneier 所写,这种方法存在“固有的安全问题”; 简单地将姓名替换为数字字符串就可以消除所有可能的标识符或与个人的链接,这是一种有缺陷的想法。 现实世界的案例研究证明了这一事实。

2006 年,Netflix 发布了 50 万客户创建的 1000 万部电影排名,以鼓励人们开发更出色的推荐系统。 德克萨斯大学奥斯汀分校的研究人员能够通过将 Netflix 的数据点链接到互联网电影数据库 (IMDb)、“个人博客、谷歌搜索等”中找到的“辅助信息”来 部分地取消匿名化数据 。 大约在同一时间,AOL 在线发布了 2000 万次网络搜索,之后《纽约时报》 将数据与电话簿列表交叉引用 ,以类似地识别数字背后的个人。 您可以在网上找到其他示例。

这些所谓的 隐私攻击 使研究人员和恶意攻击者能够发现谁在开放数据集中的“面具”背后——将看似匿名或随机抽样的信息链接到特定人员。 为了解决这个问题,差分隐私 ——涉及向数据库添加“噪声”——是计算机科学中新兴的标准,旨在保护个人隐私,同时仍保持数据集的相对效用。 当开放数据集涉及敏感个人信息时,缺乏这种保护尤其具有威胁性。

例如,HealthData.gov 提供了一个易于搜索的数千个数据集索引。 想要了解 成人烟草消费 的信息吗? 再次住院、急诊室就诊和社区出院的措施 ? 一切都在那里。

甚至城市也在网上发布数据,因为他们 越来越多地 使用机器学习系统和其他算法来加强其现有的行政职能并构建新的职能:识别道路上的坑洼、对无家可归者进行风险评估、减少交通拥堵、最大限度地减少交通事故、预测山洪暴发的发生、防治啮齿动物、预测非法油脂处理等等。《福布斯》 统计了 至少 90 个拥有开放数据门户的城市; 虽然大多数是较大的城市,但我认为这份名单将在几年内扩大到包括较小的地区。

以当前的例子为例,纽约市通过其 开放数据项目 在线发布了数千个公开可用的数据集。 例如,纽约市出租车和豪华轿车委员会 每月公开 城市周围出租车和豪华轿车行程的数据。 该网站写道:“黄色和绿色出租车行程记录包括捕获上车和下车日期/时间、上车和下车地点、行程距离、逐项票价、费率类型、付款类型以及驾驶员报告的乘客人数的字段。” 租用车辆的行程记录“包括捕获调度基地许可证号以及上车日期、时间和出租车区域位置 ID 的字段。”

这些数据集中的大多数都没有实施强大的隐私保护措施。 并且随着所有这些数据在开放环境中公开,当隐私保护不足或不存在时,存在很大的滥用潜力。 纽约市的出租车数据就发生了这种情况,当时 研究人员检查了 数据集如何揭示有关司机家庭住址和收入的信息,以及乘客的详细旅行清单,这也可能具有泄露隐私的风险。

显然,发布任何数据集的组织已经可以访问原始的、未经保护的信息,虽然对此事实存在一些担忧——例如 数据是如何收集的其使用的伦理 ——但这并不是我们关注的重点。 相反,考虑一下其他组织(除了披露者之外)如何使用这些数据。 公司可能会发布来自健身可穿戴设备的 GPS 日志,政府可以使用这些日志事后或近乎实时地跟踪人们的行动。 或者,城市可以发布有关其某些居民的数据,公司随后可以使用这些数据来提高个人的保险费率或推导出详细的旅行历史。 存在发生实际损害的可能性。

在一个世界中,争论数据隐私为何重要可能具有挑战性,在这个世界中:a) 许多人不知道他们被监视的程度有多么普遍;b) 其他人对监视是否重要持矛盾态度;c) 还有其他人发出诸如“隐私已死”之类的宣告,并得出结论认为我们应该继续前进。 这些都是危险的现实,因为不关心隐私是一种特权:“侵犯隐私会伤害我们中最脆弱的人,”我 写道 ,“并且认为数据隐私保护‘可能无关紧要’只是因为不担心信息不会被用来对付你。” 我们可能不在乎我们的信息是否被算法推断出来并可供决策者访问,但这并不适用于所有人。 而且,更广泛地说,也许我们一开始就不同意这些可能具有泄露隐私风险的披露。

因此,当我们在思考 算法偏见构建代表性数据集 等问题时,我们也需要思考我们的社会如何才能在公开发布的数据集中强制执行最低限度的隐私保护——尤其是在政府机构的情况下,政府机构已经受到有关信息披露的法律约束。 这可能涉及监督机构、关于数据集最低隐私阈值的法律等等; 并且随着公众对数据隐私的担忧日益增长(尽管可能过于集中在 Facebook 上,而对其他公司的关注不够),市场压力也可能发挥作用。

因此,为了在开放数据集中构建强大的隐私保护,联邦、州和市级政府实体需要就此问题在决策者和技术专家之间举行正式和非正式对话。 因为我们最不需要的是一项技术上不明智的政策,这项政策不仅无济于事,甚至会伤害到它本应保护的人。

User profile image.
Justin Sherman 是杜克大学的一名高年级学生,杜克大学法学院杜克法律与技术中心的研究员,以及新美国基金会的网络安全政策研究员。

评论已关闭。

Creative Commons License本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.