大多数软件都会产生数据,许多数据所有者目前正在研究如何公开他们的数据,作为更广泛的“数据向善”运动的一部分,这场运动包括像 Engine Room 这样的组织、非政府组织、个人、社区和公司。
Ushahidi 用户也不例外,我们一直在努力提供访问和发布他们数据集的方法,以及这样做所需的议题和考虑因素。我们正在编写插件和 API 代码,但我们也积极参与像 负责任数据论坛 这样的组织;我们正在思考在更广泛的数据集发布可能带来的社会效益与公开任何数据可能带来的潜在风险之间取得平衡意味着什么。
Ushahidi 是一个全球性组织,它使人们能够通过开源技术、跨部门合作和开创性事业产生重大影响。
不作恶
Ushahidi 也是一个众包平台,通过直接报告、短信、Twitter、Facebook 和其他社交媒体以及专业数据收集平台处理来自用户的输入。Ushahidi 平台被广泛应用于从监测冲突和选举暴力到灾害、发展倡议、野生动物监测和公园长椅等各种情境。
虽然公开公园长椅的位置风险很小,但 Ushahidi 用户管理的许多数据集都包含个人信息,这些信息通常在极端情况下收集,并且可能对其主体、收集者或管理者构成危险。共享来自这些平台的数据不仅仅是点击共享按钮。如果您公开数据集,您有责任尽您所知、技能和建议,不对与该数据集相关的人员造成伤害。您需要在让能够利用数据做好事的人员获得数据与保护数据主体、来源和管理者之间取得平衡。您还应该进行数据风险分析(可能发生什么,后果有多严重),涵盖人口、地图绘制者、组织和领导者。这给任何发布众包数据集的人带来了很多责任,即使对于发布是良性的数据集,仍然存在“谁拥有这些数据?”的问题需要解决。
数据类型
一个典型的 Ushahidi 实例包含几种类型的数据。
直接报告:众包者通过网络表单或短信输入的消息。Ushahidi 为这些消息提供了一组标准字段(标题、描述、类别列表等),但也创建自定义表单字段来捕获地图所有者特别感兴趣的项目。
间接报告:从其他应用程序(Twitter、Facebook 等)抓取的消息(通过 API 或众包者将其添加为直接报告)。地理位置:列表中每个位置名称的纬度和经度。这些通常是 a) 由平台使用像 Nominatim 这样的地名词典自动查找,b) 由站点管理员输入,或 c) 由提交直接报告的人员输入。
类别列表:报告标记的类别;这些列表通常由站点管理员创建。
媒体:记者或管理员添加到报告中的图像、视频、音频文件。
谁拥有数据?
所有权是这里反复出现的问题。如果一个社区的人向一个网站添加报告,并且该网站也吸纳来自社交媒体的数据,那么谁拥有这些数据?例如,第三方数据(例如,Twitter 消息)对存储和所有权有限制,即使获得原始发送者的许可,也可能使您非法分发或保留在您的网站上。关于所有权的问题已经在许多开放数据和社交媒体网站上被提出和解答,通常涉及大量工作和数据丢失,因为许可证被转移(例如,参见 OpenStreetMap 的许可证 变更)。让众包者签署贡献者协议,并在您发布的任何数据集上加上数据许可声明,这是一个好的开始。
伦理流程
风险也是一个反复出现的问题。数据主体存在隐私问题(例如,意外公开位置和电话号码),报告冲突、暴力、仇恨言论等的众包者存在安全问题;泄露敏感位置(例如,个人住宅或需要保密的强奸危机中心等场所的地址)存在安全风险,团队隐私和安全问题(例如,管理员的电子邮件地址,但也包括正在被积极跟踪的团队成员的活动数据,以及成员在其本国被逮捕为间谍的可能性)。
生活并不总是泾渭分明,当生活不泾渭分明时,我们经常开始谈论流程
伦理流程:评估共享数据集中的潜在风险;选择您应该和不应该共享哪些数据。平衡部署中共享信息可能造成的危害与潜在的好处。如果您不确定,请不要共享,但是如果您已经检查、清理、再次检查并且风险很小(并且符合伦理:您正在处理其他人的信息),请认真考虑。如果它来自个人来源(短信、电子邮件等),请检查它。至少两次。
法律流程:选择与谁共享,编写保密协议、学术伦理协议等。您可能想要共享媒体报道过的数据,因为它已经公开,但如果您这样做,您可能会发现自己处于有趣的法律领域(参见:GDELT)。在某些国家/地区,诽谤和中伤法也可能是一个考虑因素。
物理流程:在哪里放置清理后的数据以及如何使其可用。有许多数据仓库专门托管有益于社会的数据集:这些包括人道主义数据交换 (HDX),它专门处理与灾害相关的数据,以及像 datahub.io 这样的网站。Ushahidi 数据也可以通过在带有 API(例如,crowdmap.com)或 CSV 下载按钮(这是一个 Ushahidi 插件)的 Ushahidi 实例上公开数据,或者通过根据请求向人们提供数据来共享。
作为一名危机地图绘制者,我经常经历伦理流程。我通常首先进行手动调查,或者监督已经有权访问部署数据集的人员进行此操作,让他们筛选掉所有明显的 PII 和令人担忧的数据点,然后请部署区域的当地人进行手动调查,以查找对区域外人员不明显的问题(例如,在霍姆斯,面包店的位置是危险的发布信息,因为目标轰炸)。
我在第一次检查中查找的一些内容包括
- 报告和主题的识别:电话号码、电子邮件地址、姓名、个人地址。
- 军事信息:行动、活动、装备。
- 未经证实的犯罪报告:暴力、腐败等,这些报告也没有得到当地媒体报道的支持。
- 煽动性言论(这些可能会重新点燃当地的紧张关系)。
- 真实性:这些报告是真的吗?或者至少,它们是否得到外部信息的支持。
使这变得困难的事情包括未翻译的文本部分(您需要母语人士或优秀的自动翻译软件)、代码(例如,“41”作为消息是什么意思?)以及手动检查每个报告所花费的时间。这可能是一项艰苦的工作,但如果您不这样做,您就不是对您的数据进行尽职调查,这可能非常重要。
元数据级别
我还从元级别查看数据发布,首先是“谁需要这些数据?”和“他们真正需要的数据有多准确?”
开放数据本质上是开放的,并且很难预测人们对您发布的数据集的所有用途,但一些示例用户是
- 学者:社交媒体使用、群体动态等分析。
- 您组织中的人员:用于经验教训报告、用于说明、用于可视化、用于分析报告节奏等(信息到达处理、翻译等的频率)。
- 数据主体:检查关于他们的数据的真实性,并要求删除数据(有时根据为此目的设计的法律,例如欧盟隐私法)。我还没有在众包实例中看到这种情况发生,但这只是时间问题。
我见过的社区提出的有用的元级别问题包括
- 您的数据发布在地理位置上必须有多准确?例如,以较低的地理精度(例如,城镇级别而不是街道级别)发布数据是否可以/更好?
- 您是否需要发布每个报告?大多数部署都有大量垃圾消息(通常标记为未验证)——请记住,您发布的数据量越少,您需要管理(和担心)的就越少。
- 聚合数据是否符合请求数据的人的需求?例如,如果他们只需要日期、位置和类别,您是否需要也发布文本?
时间。您可能希望在部署后留出时间,以使数据集的潜在破坏性降低。当您发布数据集时,您还应该制定“数据退休”计划,详细说明您希望该数据可用的最后日期,以及存档数据及其任何相关评论的过程。
这是一个快速浏览,介绍了发布众包数据的一些问题和潜在流程。底线始终是首先遵循“首先,不作恶”的原则,并在评估开放数据的风险时牢记意外发布的可能性。请尽可能开放有益于社会的数据,但也要负责任地这样做。我们已经看到太多本应保密的数据集进入公共领域——以及本应公开的数据集,以及经过仔细修剪的数据集因发布而受到批评的例子。
FOSS
本文是 Jen Wike Huger 协调的 HFOSS 专栏的一部分。要分享您的项目和关于自由和开源软件如何使世界变得更美好的故事,请通过 open@opensource.com 联系我们.
评论已关闭。