玩一个词语联想游戏,单词“开放”几乎肯定会紧随“源代码”。开源当然是维护用户自由和计算机访问的重要力量。然而,代码并不是唯一重要的开放形式。
开放数据
开放数据已被讨论至少十年了。在 2007 年的 OSCON 会议上,蒂姆·奥莱利引发了一场小小的骚动,当时他暗示开放数据实际上可能比开源代码更重要。在这种背景下,开放数据主要指的是导出用户创建的“Web 2.0”数据的能力,这在当时正变得越来越重要。当时在 Sun Microsystems 工作的蒂姆·布雷在他写道时强调了这个问题
归根结底,信息比软件寿命更长,超越软件,并且比软件更有价值。
与此同时,开放数据的其他方面也开始浮出水面——包括访问公共数据源。即使公共数据已经提供给研究人员和其他人,但通常它不是以可以自由和容易访问的形式提供的。例如,当我在那时调查使用美国地质调查局的河流水位信息时,我发现我需要做一些复杂的网页抓取才能将信息转换成我可以导入到程序中的形式。许多其他类型的数据根本无法在线获取。
这种情况开始系统地改变。2009 年 5 月,时任美国首席信息官 Vivek Kundra 启动了 Data.gov。反过来,这 促成了 2013 年的行政命令,该命令“使开放和机器可读的数据成为政府信息的新默认设置”。许多州和市政府也扩大了他们提供的数据范围。2016 年 3 月,白宫启动了 机会项目,重点关注以有用的方式可视化和使用公共数据的工具。美国八个城市——巴尔的摩、底特律、堪萨斯城(密苏里州)、新奥尔良、纽约、费城、旧金山和华盛顿特区——目前正在参与该项目。
许多这些数据集代表在特定位置发生的事件、测量结果或物理对象。正如我之前写过的那样,可以使用来自 OpenStreetMap 等来源的地图数据,并使用像 Leaflet 这样的 Javascript 库将其嵌入到网页中,从而可视化此类数据。
为了使事情更具体,让我们看看来自一个特定城市的数据:马萨诸塞州剑桥市。剑桥市提供了 160 个数据集。这些数据集包括健康检查数据、事故、犯罪报告、人口普查信息、城市维护的树木、坑洼修复请求等等。
数据可以以多种格式(JSON、XML、CSV)下载。您使用哪种格式将取决于您的偏好以及您是想以编程方式处理数据,还是在更典型的最终用户工具(如电子表格)中处理数据。您会注意到,大部分数据确实指的是位置,尽管您通常需要使用地理编码/地理编码数据库将街道地址转换为地理坐标(即,纬度和经度),以便使用上述 Leaflet 和 OpenStreetMaps 显示它。Nominatum 是 OpenStreetMaps 数据的搜索引擎。其他选项包括 Google 地图。
然而,您的数据探索不需要局限于在地图上插针。想象一下使用各种统计技术和可视化方法对不同的数据集进行更复杂的聚合和关联并非难事。(D3.js 是一个特别流行的 Javascript 库,用于基于数据操作文档,并且是一个强大的工具,可以以视觉上引人注目且能够产生真正见解的方式显示数据。)例如,想象一下查看城市服务如何在整个城市的不同社区中提供;这些类型的模式可以成为循证数据新闻的基础。
话虽如此,值得在此处插入警告,即开放数据与来自任何其他来源的数据一样,容易受到误解和误用。了解您使用的任何数据集的来源和局限性。总的来说,来自可信来源的开放数据范围越来越广,这些来源使用相对严格的技术收集数据。然而,即使是这种数据也可能变得过时——或者它可能只是无法传达您认为它会根据快速初步查看所传达的信息。
还要注意与不同尺度的数据聚合相关的潜在陷阱,以及与证明因果关系相关的更广泛的问题。对于空间可视化的数据聚合需要特别小心。例如,如果您聚合数据并进行颜色编码以显示按人口普查区或城市病房划分的某些活动级别,则该级别可能更多地受人口或街区大小的影响,而不是实际的活动发生率差异的影响。
越来越多的数据和其他信息以易于消费且不限制其使用的方式提供。除了我上面提到的地方政府数据类型外,例如,还有 扩大公众对联邦资助研究成果的访问权限。这些领域的开放数据尤其重要,因为它能像开源开发模式的成功证明一样,增加协作和在他人的工作基础上进行构建。
1 条评论