联合国在近五年中,积极研究和推广全球范围内的开放政府数据。开放数据研究所 认为,开放数据可以帮助“释放供应,产生需求,并创造和传播知识以解决本地和全球问题。” 麦肯锡公司 报告称,“仅七个行业每年就可以因开放数据而产生超过 3 万亿美元的额外价值。”
毫无疑问,开放数据是一个重要的公共政策领域,并且将长期存在。然而,尽管有如此宏伟的承诺,但深入探究后,人们会发现关于实际情况的硬性经验事实却非常匮乏——在城市这个我们大多数人日益生活和工作的真实世界中。
Citadel-on-the-Move 最近的成果开始填补这一空白,尤其是在更好地理解现有开放数据实践(而不是最佳实践理论)方面。Citadel-on-the-Move 是一个由欧盟委员会资助的 400 万欧元项目。The Citadel 的立足点是坚信开放数据的力量尚未被充分挖掘。该项目旨在通过使用户友好的简单开源工具来发布和使用开放数据,从而释放这种力量,赋予公务员和公民权力。在工作过程中,The Citadel 随后与来自六大洲的 140 多个城市进行了合作,在此过程中发现了关于当地开放数据格局的大量新发现。

原始照片由 21c Consultancy 提供。 CC BY-SA 4.0
第一个主要发现是关于城市开放数据成熟度水平
- 17% 之前没有接触过开放数据(没有公开数据可用)
- 24% 在开放数据方面经验很少(有一些数据,但没有城市门户或系统发布)
- 47% 在开放数据方面有一些经验(有城市门户或系统发布,但没有关于开放数据发布和更新的明确政策)
- 12% 在开放数据方面具有高级经验(有门户或系统发布以及开放数据发布和更新政策)
第二个主要发现是关于开放数据门户或网站的使用,这些门户或网站用于向公众提供数据。10% 的城市没有可公开访问的开放数据门户。在剩下的城市中,17% 使用国家开放数据门户,44% 使用本地开放数据门户,29% 同时使用本地和国家门户。

原始照片由 21c Consultancy 提供。 CC BY-SA 4.0
最后一个主要发现是关于用于发布开放数据的格式或文件结构。调查确定了 77 种不同的发布格式,范围从常用格式到高度专业化的格式,后者用于表达特定信息类型,例如地理文件。最常见的格式是 CSV(逗号分隔值),62% 的城市使用该格式发布至少一个开放数据文件,其次是 XML(可扩展标记语言)和 XLS(Microsoft Excel),分别占 47% 和 40%。
大多数城市以两到三种不同的格式发布数据,这反映了他们必须提供的各种信息。下图显示了使用 10 种最流行格式的百分比

原始照片由 21c Consultancy 提供。 CC BY-SA 4.0
通过与 100 多个城市的讨论,The Citadel 团队很快了解到,大多数公共部门数据所有者对不同数据格式的相对优势没有深刻的理解。因此,除了最先进的城市外,所有城市都采取阻力最小的路径,以他们已有的格式发布数据。虽然这种做法忽略了更强大格式的更大可能性,但它对国际数据标准机构具有许多实际意义。
正如 Tim Davies 出色地分析数据标准时所指出的那样,在开放数据的早期,许多标准倡导者(包括 The Citadel 在其 最初的白皮书中)都拥护链接开放数据 (LOD)(一种将数据表示为一系列相互连接的链接的方法),因为其表示数据的方式(主要使用 RDF)可用于构建非常高级的模型和工具。然而,随着时间的推移,许多人开始拒绝 LOD 模型,因为正如我们在 The Citadel 上的工作所发现的那样,它创建和使用起来非常复杂,因此将技术水平较低的数据所有者排除在外。在短时间内,XML(W3C 创建的一种格式)似乎代表了发布开放数据的更好选择,因为它包含用于组织数据集的强大模式,可以轻松地从标准城市门户导出数据,并为使用数据的应用程序提供轻松的检索。然而,在过去两年中,由于难以将刚性模式构建到应用程序中,因此也出现了远离 XML 标准的趋势。
最近,开放数据社区已开始接受这样一种观念,即更简单的表格数据格式为最广泛的社区(包括那些对他们来说,像 XML 这样技术上更复杂的格式构成入门障碍的人)提供了最佳的重用前景。鉴于这种向扁平化、无模式数据发展的趋势,CSV(逗号分隔值)近年来作为发布开放数据的最佳通用格式而广受欢迎。W3C 的技术架构组目前正在制定草案,以提供有关 CSV 语法和最佳实践的指南,甚至宣布 2014 年为“CSV 年”。
The Citadel 与欧洲各地地方政府的合作以及随后关于数据格式的调查结果支持了 W3C 的立场。虽然技术社区的某些部分,特别是那些致力于推进 Tim Berners-Lee 的“数据网络”愿景的人,可能仍然提倡 LOD(通过 RDF 表示)的高级功能,但 Citadel 的调查结果表明,这种理想忽略了以下四个方面的现实
- 城市数据所有者绝大多数更喜欢 CSV 的简单性作为发布格式。
- 开放数据倡导者推广 CSV 用于数据转储,因为这种格式比 RDF 提供更高的清晰度。
- 越来越多的开发人员更喜欢 CSV 表格,因为这种格式代表了一个空白画布,他们可以在其上更有效地工作。
- 希望使用数据的普通公民可以理解 CSV 文件,而无需 RDF 或 XML 所需的高级技术技能。
The Citadel 项目确定的 CSV 等扁平数据集的趋势表明,数据集携带的来源或“包袱”越少,对于所有技术能力的用户而言就越有用。数据标准倡导者最好从这种自下而上的发现中汲取教训,而不是试图从上而下强加技术理想。
& 开放数据
一系列文章,内容关于开放政府和开放数据的最新动态。
1 条评论