在之前我们已经谈过了一些关于元数据的内容,以及元(metadata)数据是如何将事物关联起来的。今天我们谈一谈事物元素的标准化。(感觉这一段的首字放大之后,逼格高了一点)

事物元素表情包
从一个表情引入主题

首先我们先得知道什么是事物元素。其实就相当于描述一个事物的元数据,就比如说达芬奇就是蒙娜丽莎的元素。我们在搜索引擎当中可以通过元素来找到一个事物,我们通常把这些元素叫做关键词(keywords)。

当然元素因为各种各样的原因名称并不统一。比如说父亲也可以叫爸爸、令尊之类的,但这些词都代表着同一个意思,而计算机却不认为它们相同。不仅仅汉语会出现这种情况,英语也有出现这种情况,法语有时候也会。

解决方案一:穷举法

在wiki当中,有一些比较奇怪的关键词,但他们也可以表示同一意思,也许修改的人使用他们比较方便。不过能够帮到一个人也是不错的。穷举法则让所有人把关于这个事物的元素全部添加进去。但是这个方法费时费力,而且之后语义网之类的有很多干扰。

穷举失败

解决方案二:规范事物表

其实我们可以用一个标准的事物表来规范事物元素,也就是说事务元素必须出自这个表。这样可以大大的减少字形不同的情况,但是你首先要有这样一个表,它可以概括你所有的事物的所有特征,编辑这样的表就费时费力,更不要说让他们在表上面找出自己想要添加的元素了。

解决方案三:同义词

现在有些翻译网站对于同义词和反义词做了非常详细的标注,通过机器调用这些词表,对于这些元素进行一些理解,就可以标注出那些同义的元素。这个解决方案在语义网还没有实现之前是比较可以推行的。但是人工智能已经开始理解语言了。

终极方案:人工智能

我不太清楚在一个元数据的文章里面放入人工智能是否合适。但是这确实是现在最好的解决方法,你可以通过微信搜索一个小程序"百度AI体验",里面有一个语言理解的功能,人工智能已经对于主谓宾定状补、褒贬词性、同反义理解非常好了,用人工智能排除掉重复的元素再加以人工筛选,已经非常完美了。