在很久很久以前,人们就开始探究事物的关系与规律。在古希腊时代meta这个词就出现了,这一个系列文章,我们打算通过元数据(metadata)来整理事物,探究事物的关系与分类。

其实元数据在最近十年概念才提出来,但它其实已经广泛运用到图书馆的图书管理当中。

先从一个简单的例子开始

如果你的家里面书柜放着很多的书,甚至比一个小型图书馆的还要多,但是你如果没有建立这些图书的索引,你家的书柜就不能称是一个图书馆。

为什么你家的书柜不能叫做图书馆?是因为图书馆与其他的书柜有一个区别。就是他会将书分门别类建立索引,一个图书馆让读者走来走去,寻找图书就不能叫做一个图书馆。我们现在去图书馆查找一本书的普遍方式,就是去查询机查询这个图书的索书号。然后通过这个索书号确定不同的书区,不同的书柜,不同的书。

这是从图书馆找书的方面说,那么当你没有读过一本书的内容之前,你是怎么对这个书产生兴趣?是它的包装吗?是它的标题吗?还是他的作者?包装标题和作者,就是描述这本书的一些数据,我们将描述数据的数据称为元数据(metadata)。

我们在上面这个结论当中有一些瑕疵,因为书本身并不是数据,书只是文章的容器,要是从更深的层次来说,文字也只是思想的容器。所以说从最根本来说思想才是一本书的数据。而作者标题书名这些仅仅只是描述这本书思想的一些描述性元数据。

一本书可能包括很多内容,但是我如果告诉你它的索书号、书名、作者、出版社、主题等等等等,你有可能会对这本书产生兴趣,并且在必要的情况下可以找到这本书。但是在刚刚提供给你的这些信息当中,并没有牵扯到这本书的思想内容。仅仅只是告诉你它的主题,却足以让你对它产生兴趣。这就是元数据的有趣之处。

元数据相比于普通的数据的重要性发生变化

自从棱镜门事件曝光之后,公民对于元数据的概念,内容以及保护等等方面关注度越来越多。它相比于普通的数据,有没有什么区别?答案是有。

我们以一个电话为例,电话的数据内容就是你和对方的谈话内容,而电话数据内容的元数据就是你和对方的通话地点,通话时间和通话的其他信息。知道一场通话的数据内容可能决定不了什么,但是知道几场通话的元数据就可以知道你正在干什么。

这段话我自己读起来都有点抽象,这样吧,举个例子。小明下午四点在家给修锁厂打个电话,过几分钟之后,修锁厂的员工在他的家给修锁场的负责人回电话,再接着小明就给公司打电话了。请打开你的脑洞,想想小明正在干什么?

在脸书(Facebook)这么一个比较扁平化的社交平台,他们可以通过分析你是否点赞以及是否进行其他标志性的评价动作,来猜测你的性格。如果你在脸书上面有1000个like,脸书对你的预测就会好于你的家人。

给某一个人点赞,这本身并不重要,但是如果将给几个人点赞或是给一个人的多条内容点赞联系起来的话,这就足以说明一个人的性格。

事物归类

谈完元数据的重要性之后,我们来谈谈事物的标准归类。首先我们得肯定事物的本身名字是无法被标准化的,就比如说书名无法被标准化。但是我们可以通过对两个或者更多事物建立一个关系从而整理出世界万物。

首先我们要整理网站、百度、百度百科和百度搜索的关系,网站里面包括百度但是百度并不代表所有的网站,百度里面有百度百科和百度搜索,百度百科百度搜索是并列的层级关系。

那我们这边先大概列出一个框架,网站到百度,百度到百度百科和百度搜索。然后百度的内容并不一定是百度百科,但是百度百科的内容一定是属于百度的,这就是一个比较类似于包括但不全等的两者关系。

另外,我们可以通过一个桥梁,让两个似乎不相关的事物联系起来。就比如说因为百度是网站,所以说百度层级下面的百度百科和百度搜索也是网站。