1. 图片/视觉:Google Images。直接输入搜索词,然后人工把一些符合目标的图片下下来。这是Caltech 101/256和ImageNet的主要采集方式
2. 文本/自然语言处理:
2.1. Wikipedia。Wikipedia经常发布整个网站的snapshot,包括所有的文本(有些版本还包括多媒体资料),这是自然语言处理研究常用的数据集之一。好处是它还包含多语言版本,有时也被机器翻译学者用作研究对象。
2.2. Google Search。搜索引擎的搜索条目摘要(search snippets)也是重要的语义/语料来源之一。
2.3. WordNet。英语名词的分类、解释和相互关系。常用于语义任务。
3. 语音/语音识别:LDC(Linguistic Data Consortium)。学界做语音识别的数据集大多来自这里。有英语、汉语(普通话)、阿拉伯语等多语种的数据——不过大部分数据要钱。
4. 其它:Amazon Mechanical Turk。如果你有大量数据需要利用人类常识进行标注(而非专业人士分析),但手头只有闲钱没有人力的话,AMT是不二的选择。ImageNet等数据集都是在AMT的帮助下完成的。