61. 还不够?试试 维基百科所有的图片。
62. 假设你在 构建下一代图书阅读器,你希望段落可以自动与相应的维基百科文章相关联。怎么做?斯坦福大学和谷歌研究中心已经搭建了 英文段落映射维基文章的数据库,你可以下载他们的 论文。
63. 俄罗斯搜索引擎Yandex提供了一系列 搜索数据。也就是,如果一个人搜索了关键词,他们会点击哪些内容?不过,提供的都是俄罗斯人的搜索结果。
64. 人们通常在维基百科上做哪些编辑修订? 也有数据库是关于这一内容的。
65. 谷歌有一个 面向数据集的搜索引擎,你造么?
66. Pew研究机构有很多免费的数据集,其中包括他们的 “全球态度项目”数据集。通过这个数据集我们可以了解:世界是否变得越来越进步?随着时间的推移,人们对宗教的态度是如何变化的?
67. 谈到公众态度随时间的变化,你可以下载从 1972年到2012年的综合社会调查数据集,这个数据集也可以回答这两个问题。
68. 有一个有趣的数学问题叫名人问题,你需要找出一个每个人都认识,但是不认识任何人的人。但生活中真的有名人问题么?试试 雅虎的明星脸集。
69. 需要2009年以来的十亿个网页?需要训练一个从不停止的语言学习者NELL? 是的,你可以做到。
70. 你知不知道你可以 下载Arxiv上所有的PDF?一旦我们可以教会机器自然语言,我们就可以让计算机阅读所有文档为我们提取重点。
71. 如果你需要任何 产业的经济状况数据,试试census.gov的行业统计信息。如果经济状况不好,你会在数据中找到证据。
72. 你可以下载大量 Usenet帖子的数据。这些数据对某些文本分析项目或机器学习算法(如拼写检查)很有用。
73. Nick Bostrom有一篇很有意思的文章 “预防人类灭绝是头等大事”。该文章提出,考虑到人类灭绝的危害,再小的灭绝危险都是需要警惕的。通过分析从 公元前2500年到2012年流星撞击地球记录,我们可以更好的应对这个问题。
74. 性别和精神疾病对犯罪影响有多大? 有数据集是针对这个问题的。
75. 谈到精神疾病,如果你想了解精神疾病是如何影响少数民族的, 试试这个数据库。
76. 现在有很多孤男寡女,其中不乏一些具备卓越分析的人。 试试这个数据集“对比传统夫妇和不传统夫妇,美国人是如何遇到他们另一半的”,寻找遇到另一半的最好办法。
77. 你可以通过此链接下载大量所谓的 “青少年健康”的数据,而且还包括了大量关系数据和生物指标数据。
78. 我有一个问题:现代工作与过去工作相比,哪个更糟糕? 有五组调查调查了关于不同职业群体对该问题的回答,我已经看到了这样一篇文章——“我们可以告诉你:昨天是不是比今天更好?”
79. 斯坦福大学有 3500万条亚马逊商品评价可供下载。你可以用这个做很多事情:使用它来改善推荐系统的算法,找出评论中是否存在“模仿-领袖”效应(比如:早期的积极评价能否带来更多的积极评价?)
80. 基于我过去的一些研究,搜索关键字 “关于连环杀手的数据集”时发现两个特点:1)很具体;2)很流行,但我希望这和人的品味没有太大关系。当然,我找到了相关的数据集,在此特别感谢连环杀手信息中心。
来源:CSDN
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【一】周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【二】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【三】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【四】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【五】