语义网,这个术语由万维网 (WWW) 发明者 蒂姆·伯纳斯-李 爵士提出,指的是互联网上所有网站中的所有信息都应该能够互操作和通信的概念。这个愿景,即一个为任何需要信息的人提供知识的网络,正在不断涌现和发展。
在 WWW 的第一代 Web 1.0 中,大多数人是内容的消费者,如果你拥有网络存在,它由一系列以 HTML 形式传达的静态页面组成。网站有留言簿和 HTML 表单,由 Perl 和其他服务器端脚本语言驱动,人们可以填写。虽然 HTML 为网络提供了结构和语法,但它没有提供意义;因此 Web 1.0 无法将意义注入到 WWW 的 vast 资源中。
接下来是 Web 2.0 和用户生成内容的兴起,例如博客、维基、视频分享、社交媒体等等。动态生成的内容创造了双向互动。Flickr 和 Twitter 等网站采用用户生成的标签(称为 民间分类法)将内容组织成类别。虽然这代表了在界面和交互性方面相对于 Web 1.0 的巨大改进,但这并不是伯纳斯-李对语义网定义的全部交互性水平。
随着快速扩展的物联网 (IoT),实现语义网的紧迫性日益增加,因为这些设备中的每一个都形成了一个语义数据网络,可以使用适当的工具进行查询。人工智能、大数据、物联网和互联网络技术的交叉正在创造机会,从我们在日益互联的世界中共享的数据中获得更多意义和上下文。随着这个数据网络的持续增长,我们需要软件工具和框架来创建和读取这些信息。
语义网的架构
万维网联盟 (W3C) 已经确定了一个互补数据集的软件堆栈,这些数据集嵌入在网络内容中,可以使用适当的软件进行识别和查询。

语义网架构,Marobi1, CC0
这个新的信息生态系统由一个理论堆栈定义,该堆栈由统一资源标识符 (URI) 组成,URI 是标识资源的字符串。它还包括 Unicode,即字符的数字表示形式,允许以不同的语言显示网络内容。堆栈基础的其他主要元素如下
- 嵌入在这些网络文档中的可扩展标记语言 (XML) 建立了一个描述所提供内容的通用语法。
- 资源描述框架 (RDF) 由 W3C 定义 为“一种灵活且可扩展的方式来表示有关万维网资源的信息。它用于表示个人信息、社交网络、有关数字工件的元数据等,以及提供跨不同信息源进行集成的手段。”
- Web Ontology Language (OWL) 是一种语义标记语言,旨在描述事物之间的关系,并且可以被其他程序用来解释所提供的数据。
- SPARQL(发音为“sparkle”)是协议和 RDF 查询语言,用于提取在网络上找到的嵌入式 RDF 数据。根据 维基百科,“SPARQL 允许用户针对可以粗略地称为‘键值’数据的数据编写查询,或者更具体地说,针对遵循 W3C 的 RDF 规范的数据编写查询。”
推动语义网发展的开源项目
网页如何区分信息?我的网络内容如何以接收者知道我的意图的方式与其他内容进行字面意义上的对话?例如,如何查询维基百科文本和多媒体文件中的信息,以确定 2016 年发生了哪些活跃项目?一种实现这种类型交互的开源工具是 Semantic MediaWiki。
此外,越来越多的开源项目涌现出来,旨在从语义网中提取意义。这包括 DBpedia,一个旨在从维基百科中提取结构化内容的项目。知识共享 使用 RDF 数据将许可信息嵌入到网页和 MP3 文件中。简单知识组织系统 (SKOS) 用于词库应用程序,例如 Unesco Thesaurus。Apache Jena 是 SPARQL 的开源实现。另一个实现 SPARQL 的开源框架是 Sesame。
如果您想了解有关这些和其他进展的更多信息,请访问 W3C 的 语义网页面,其中包含技术信息、新闻、即将发生的事件等。
2 条评论