今天是数据隐私日(在欧洲称为“数据保护日”),您可能会认为我们开源世界的人应该认为所有数据都应该是自由的,正如信息理应渴望自由一样,但生活并非如此简单。这主要有两个原因
- 我们大多数人(不仅仅是开源领域)都认为至少有一些关于我们的数据是我们可能不愿意分享的(我在一篇帖子中列举了一个例子,那是我之前发布的)。
- 我们许多从事开源工作的人实际上是在商业公司或其他受法律约束的组织工作,这些法律要求限制了他们可以分享的内容。
所以实际上,数据隐私对于几乎所有人来说都很重要。
事实证明,在美国和欧洲之间,人们和政府认为应该允许组织使用的数据的起点有所不同,前者通常为实体——尤其是,更愤世嫉俗的人可能会认为,大型商业实体——提供了更大的自由度,让他们可以随意使用他们收集的关于我们的数据。另一方面,欧洲历来采取更严格的观点,而且在 5 月 25 日,欧洲的观点可以说将会胜出。
GDPR 的影响
这是一个相当笼统的说法,但事实仍然是,这一天是欧盟于 2016 年颁布的《通用数据保护条例》(GDPR)生效的日期。GDPR 基本规定了一套严格的规则,关于个人数据如何存储、可以用于什么、谁可以查看以及可以保存多长时间。它还描述了什么是个人数据——它涵盖了相当广泛的项目,从您的姓名和家庭住址到您的医疗记录,再到您计算机的 IP 地址。
然而,GDPR 的重要之处在于,它不仅适用于欧洲公司,而且适用于任何处理欧盟公民数据的组织。如果您是一家阿根廷、日本、美国或俄罗斯公司,并且您正在收集关于欧盟公民的数据,那么您就受其约束。
“呸!”您可能会说,1“我不是在欧盟境内:他们能对我做什么?” 答案很简单:如果您想继续在欧盟开展任何业务,您最好遵守,因为如果您违反 GDPR 规则,您可能需要承担高达您全球收入百分之四的罚款。是的,那是全球收入:不仅仅是欧洲特定国家或整个欧盟的收入,不仅仅是利润,而是全球收入。这些数字应该会让您与您的法律团队交谈,他们会将您引向您的执行团队,他们几乎会立即将您引向您的 IT 部门,以确保您在很短的时间内合规。
这似乎与非欧盟公民无关,但事实并非如此。对于大多数公司来说,为与他们打交道的所有客户、合作伙伴和员工的数据实施相同的保护措施,而不是仅仅针对欧盟公民采取特定措施,将会更简单、更高效。这绝对是一件好事。2
然而,仅仅因为 GDPR 即将应用于全球各地的组织,并不意味着一切都很好很顺利3:事实并非如此。我们一直在泄露关于我们自己的信息——以及允许公司使用这些信息的许可。
有一句发人深省(尽管有争议)的说法:“如果你不付费,你就是产品。” 这句话暗示,如果您不为某项服务付费,那么其他人就会付费使用您的数据。您付费使用 Facebook 吗?Twitter?Gmail?您认为他们如何赚钱?嗯,部分是通过广告,有些人可能会争辩说那是他们为您提供的服务,但实际上那是他们使用您的数据从广告商那里赚钱。您实际上不是广告的客户——只有当您从广告商那里购买东西时,您才成为他们的客户,但在您购买之前,关系是在广告平台的拥有者和广告商之间。
其中一些服务允许您付费以减少或删除广告(Spotify 就是一个很好的例子),但另一方面,即使对于您认为您付费的服务,广告也可能会被启用(例如,亚马逊显然正在努力允许通过 Alexa 展示广告)。除非我们想开始付费使用所有这些“免费”服务,否则我们需要意识到我们放弃了什么,并就我们公开什么和不公开什么做出一些选择。
谁是客户?
关于数据,还有另一个问题应该引起我们的关注,这是数据生成量直接导致的后果。有许多组织——包括像大学、医院或政府部门4这样的“公共”组织——一直在产生大量数据,但他们根本没有能力存储这些数据。如果这些数据没有长期价值,那将是另一回事,但事实并非如此,因为处理大数据的工具正在开发中,组织正在意识到他们现在和将来都可以挖掘这些数据。
然而,他们面临的问题是,随着数据量的增加,他们存储数据的能力跟不上,该如何处理这些数据。幸运的是——我使用这个词时带有非常强烈的讽刺意味,5大型公司正在介入帮助他们。“把你的数据给我们,”他们说,“我们会免费托管。我们甚至会让您在需要时使用您收集的数据!” 听起来很划算,是的? 这是大型公司6采取慈善姿态并帮助收集了所有关于我们可爱数据的公共组织的一个绝佳例子。
可悲的是,慈善事业不是唯一的原因。这些托管协议是有代价的:为了换取同意托管数据,这些公司可以向第三方出售对数据的访问权。您认为公共组织或数据被收集的人会对这些第三方是谁或他们将如何使用数据有发言权吗? 我将此留给读者自己思考。7
开放和积极
然而,这并非全是坏消息。政府中出现了一种日益增长的“开放数据”运动,鼓励各部门免费向公众和其他机构提供他们的大部分数据。在某些情况下,这正在通过立法明确规定。许多志愿组织——特别是那些接受公共资助的组织——也开始这样做。甚至商业组织也开始对此产生兴趣。更重要的是,诸如差分隐私和多方计算等技术正在变得可用,这些技术开始使我们能够在跨数据集挖掘数据,而不会过多泄露关于个人的信息——这是一个计算问题,从历史上看,它比您可能预期的要难处理得多。
这一切对我们意味着什么?嗯,我之前在 Opensource.com 上写过关于开源共同体的文章,我越来越相信我们需要超越软件,关注其他领域:硬件、组织以及与本次讨论相关的数据。让我们想象一下,您是一家公司 (A),为另一家公司(客户 (B))提供服务。8 有四种不同类型的数据在起作用
- 完全开放的数据:A、B 和世界其他地方都可见
- 已知、共享和机密的数据:A 和 B 可见,但其他人不可见
- 公司机密数据:A 可见,但 B 不可见
- 客户机密数据:B 可见,但 A 不可见
首先,也许我们应该对数据更加开放,并默认将其放入第 1 类。这些数据——关于自动驾驶汽车、语音识别、矿产矿藏、人口统计数据——如果每个人都可以访问,可能会非常有用。9 此外,如果我们能够找到方法将第 2、3 和 4 类中的数据——或至少其中一部分——放入第 1 类,同时仍然保持详细信息的机密性,那岂不是很好吗? 这就是正在研究的一些新技术的希望。然而,它们还需要一段时间才能实现,所以不要太兴奋,与此同时,开始考虑默认情况下让您的更多数据开放。
一些具体步骤
那么,关于数据隐私和保持开放,我们可以做些什么呢?以下是我想到的一些具体步骤:请在评论中贡献更多内容。
- 检查您的组织是否认真对待 GDPR。如果不是,请推动它。
- 默认情况下加密敏感数据(或在适当情况下进行哈希处理),并在不再需要时删除——除了实际处理数据时,现在真的没有理由让数据以明文形式存在。
- 考虑一下您在注册服务时(尤其是社交媒体)披露的信息。
- 与您的非技术朋友讨论这个问题。
- 教育您的孩子、您朋友的孩子以及他们的朋友。 更好的是,去和他们的老师谈谈,并在他们的学校展示一些东西。
- 鼓励您工作、志愿服务或与之互动的组织默认情况下使数据开放。与其思考“我为什么要公开这些?”不如从“我为什么不应该公开这些?”开始思考。
- 尝试访问一些现有的开放数据源。挖掘它,创建使用它的应用程序,执行统计分析,绘制漂亮的图表,10创作有趣的音乐,但考虑用它做一些事情。告诉提供数据的组织,感谢他们,并鼓励他们做得更多。
3. 如果您想知道“dandy”是什么意思,那么您现在并不孤单。
4. 这些机构在您看来有多么公开,可能取决于您居住的地方:YMMV。
6. 而且它们很可能是大型公司:没有其他人能够负担得起所有这些存储和保持其可用的基础设施。
8. 虽然这个例子也适用于人。哦,看:A 可以是 Alice,B 可以是 Bob……
9. 当然,我们不应该公开个人数据或实际上需要保密的数据——不是那种类型的数据。
10. 我的一位朋友认为,每次她去学校接孩子时似乎总是下雨,因此为了避免确认偏差,她访问了整个学年的降雨信息,并创建了她在社交媒体上分享的图表。
评论已关闭。