Google的语料库。Google Freebase Annotations of TREC KBA 2014 Stream Corpus, v1 (FAKBA1)
Freebase 的数据被存储在一个叫做图的数据结构中。一个图由边连接的结点组成。在 Freebase 中,结点使用 /type/object 定义,边使用 /type/link 定义。通过以图的形式存储数据,Freebase 可以快速遍历主题(topic)之间的任意连接,并轻松添加新的模式(schema),而无需改变数据的结构。
Freebase 有超过 3900 万个关于真实世界的实体,例如人、地点和事物。由于 Freebase 的数据由图表示,这些主题对应图中的结点。然而,不是每个结点都是主题。CVT 就是这样一个例子,它不是主题但是结点。
关于 Freebase 主题类型的例子:
- 物理实体,例如 Bob Dylan, the Louvre Museum, the Saturn planet
- 艺术/媒体产品,例如 The Dark Knight (film), Hotel California (song)
- 分类,例如 noble gas, Chordate
- 抽象概念,例如 love
- 思想流派或艺术运动,例如 Impressionism