数据结构、数据可重用性以及数据的关联

1. 数据结构和数据可重用性

  • 数据的可重用性是数据的一个属性,指的是数据能够在不做修改的情况下在其他应用中重用。
  • 数据的可重用性在很大程度上受到数据的结构化程度影响:数据的结构越是规范和明确,这些数据就越容易,也越可能被人们开发出来的应用程序方便、可靠地处理和重用。

2. 网络上的结构化数据

2.1 HTML——面向文本的结构化而非数据的结构化

  • 网页主要是用HTML语言编写的,HTML面向的是文本文档的结构化,而不是面向数据的结构化。
  • 软件或应用要从HTML网页中提取结构化的数据片段是很困难的,因为有用的数据被混在大量的文本之中。

2.2  Microformat——在HTML中嵌入结构化数据

  • 微格式(Microformat)可以用来发布结构化数据。
  • 微格式在HTML页面中植入描述特定类型实体(人、组织、事件等)的数据。
  • 微格式明确地规定了如何植入数据,应用可以明确地从植入了微格式的网页中提取这些被植入的信息。
  • 微格式通常不能表达实体之间的关系。

2.3 Web API——绕过网页在网络上发布和利用结构化数据的方法

  • 网络应用编程接口(Web API)支持通过HTTP协议对结构化数据进行查询和访问。
  • Web API一般通过XML或JSON等结构化数据格式(而非HTML文档形式)提供数据。
  • 为了在一个应用中通过API整合进一个新的数据集,通常需要付出大量的努力:程序员需要学习如何通过API实现对一个特定数据集的检索和访问,需要针对每一个API编写特定的代码。

微格式和Web API都不是理想的发布和利用结构化数据的方法。

3 网络上的关联

3.1 HTML网页中的链接

  • HTML规定了锚点元素a和其属性href,两者一起使用的时候表示了一个从现有文档向其它外部文档的一个链接。
  • 浏览器或搜索引擎爬虫能够识别“a href”这样一个组合,并正确处理,如:浏览器将会将其以一个可点击的链接形式呈现给用户。

3.2 Web API中的标识符

  • Web API返回的数据,并不一定采用a加上href来表示相关的数据,许多Web API返回的数据中会采用标识符来表示相关的东西。
  • 有很多Web API提供的甚至是本地范围的标识符,如产品标识符“UM151”,单独将其从Web API中抽取出来将毫无意义。

相比标识符,链接要更能胜任将网络上的数据进行关联的任务。

参考文献:

Tom Heath and Christian Bizer (2011) Linked Data: Evolving the Web into a Global Data Space (1st edition). Synthesis Lectures on the Semantic Web: Theory and Technology, 1:1, 1-136. Morgan & Claypool.

 

One thought on “数据结构、数据可重用性以及数据的关联

  1. Pingback: 怎样的URI才够酷,标识的对象、基本要求和设计原则 - The Ontology of Ryan

Leave a Reply

Your email address will not be published. Required fields are marked *