有关一个数据集的元数据应该包括什么?

我们如何能够回答如下问题:

  • 这个数据集包含怎样的信息?
  • 这个数据集中描述了什么类型的实体?
  • 我们如何能够判断这个数据集能否满足我们的需求?

我们需要有关一个数据集的元数据来帮助回答这些问题。

应该有五种类型的数据集信息:

  1. 描述性信息Descriptive Data
  2. 访问信息Access Information
  3. 指示器Indicators
  4. 组合数据Compositional Data
  5. 关系Relationships

1 描述性信息——帮助以一个“作品”的方式理解来理解一个数据集   例:

  • 标题
  • 描述
  • 许可
  • 发布者
  • 主题类型

2 访问信息——我们从哪里能获得数据   例:

  • 从哪儿下载最新数据
  • 从哪下载归档数据
  • 数据集有没有镜像
  • 有没有可用的API
  • 我如何能获得访问数据的权限

3 指示器——帮助人们深入了解数据集的统计数据   例:

  • 大小
  • 增长率
  • 最后更新时间
  • 更新频率
  • 重用的数量
  • 数据贡献者数量
  • 使用频率
  • 数据修正的周转时间
  • 已知的错误数
  • 可用性

4 关系——这个数据集和其他什么数据集相关?例:

  • 列表:这个数据集从哪些数据集中抽取了标识符、受控词汇或其他
  • 列表:这个数据集(以链接的形式)引用了哪些数据集
  • 列表:用来编译或创建这个数据集时的来源数据集
  • 列表:哪些数据集链接至这个数据集
  • 列表:哪些数据集通常和这个数据一同使用

5 组合数据——有关数据集内部的信息(包含什么类型的数据,数据是如何组织的,描述了什么样的事物)

再细分为三类:

  1. 范围Scope 例:
    这个数据集描述了什么类型的事物?人、地点或其他?
    这个数据集中包含的这样的事物一共有多少?
    这个数据集是否有一个地理性的焦点?
    这个数据是否限于特定的时间段?
  2. 结构Structure
    数据集中记录的典型示例?
    数据集中记录的统一模式是什么?
    这些数据中常见的图模式是什么?
    不同类型的资源是如何相互联系的?
    数据的逻辑模型是什么?
  3. 内部构件internals
    数据集中使用了哪些RDF术语?
    以怎样的格式记录了日期、时间或者其他结构化的值?
    对特定字段或属性是否有自定义的规则?
    对个体模式元素或者数据单件是否有制约?
    数据物理模型是什么?
    数据集的整体布局是怎样的?依据一个特定的数据库模式或者是一系列文件的集合还是一系列具名图的集合?

选译自Leigh Dodds的博客文章“What Does Your Dataset Contain?

Leave a Reply

Your email address will not be published. Required fields are marked *