楼主: aongao
2139 1

周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【五】 [推广有奖]

  • 5关注
  • 31粉丝

VIP

教授

52%

还不是VIP/贵宾

-

TA的文库  其他...

新能源&可持續發展

農業&经济

威望
1
论坛币
33743 个
通用积分
5631.2235
学术水平
153 点
热心指数
194 点
信用等级
114 点
经验
89568 点
帖子
626
精华
2
在线时间
1101 小时
注册时间
2014-1-20
最后登录
2022-4-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

81. 这确实是一个让人有些毛骨悚然的名字,Maryland大学还有个“全球恐怖主义数据库”,这是一组由 11.3万个恐怖事件组成的数据集。你可以在填完表后下载它。可视化这些数据,对一些易受影响的地区进行预测,可以防止恐怖袭击,建立提前预警系统。


82. MNIST数据库是机器学习领域的一个经典。它是由一组带标签的手写字符组成,这对OCR算法来说是必不可少的。如今,一些算法的判断能力甚至比人类法官还要准确!在将来,我们会要求让机器来做判决。


83. UCI为我们提供了 扑克牌数据集。我不擅长玩扑克,但我敢肯定关于扑克一定会有一些有趣的分析可做。我听说在扑克界人类仍然比机器更有优势,但我觉得这种说法不太可靠。


84. UCI的另一个数据集:其中,图像被简单的分为广告和非广告两种。基于该数据集可以自动拦截广告或进行垃圾邮件的检测,也许还能应用到Google Glass中,过滤掉现实生活中的广告,那一定是一件很酷的事情。我们看到的将不再是一个广告牌,而是自然景观的虚拟扩展。


85. 还记得Star Wars Kid崩溃事件吗?Attack of the Show将它评为了史上第一病毒视屏。Andy Baio策划了这一事件,还杜撰了“Star Wars Kid”这一词,并将他的 服务器日志公开发表


86. 怎样知道在Wordpress上谁链接到了谁(或者是某物)?可视化网络是件很了不起的事情,但如果它能揭示一些关于“超节点”的信息,或许会更好,“超节点”是指被许多节点连接或者连接到许多节点的节点(也许两者都有)。如果你有兴趣, 也可以利用这些数据将不同的人归类


87. Obama是更喜欢石油大亨?还是极端环保主义者?或是玉米游说团体?是谁在背后支持Herman Cain?我们已经可以下载到 2012总统竞选的财务数据,用来分析哪些行业偏向于哪位候选人想必是也极好的。


88. 哪所私立大学最有价值?


89. 哪所公立大学最有价值?


90. 按州统计的香烟数据。肯塔基州抽的最多,西弗吉尼亚州第二。 鉴于烟草的巨大社会危害,一个不错的分析也许可以挽救很多人的生命。


91. 在2008年12月5日,从Pirate Bay可以下载到什么?


92. 想要构建一个Reddit推荐引擎吗?(或换个说法会更好——你觉得把那些愚蠢却流行的意见过滤掉怎么样?)不错,用Redditor完全可以做到这一点,Redditor会是个不错的推荐引擎。


93. 全球健康数据。用这些数据来确定改善世界健康的方法会很有效,像血吸虫病控制倡议一样,这一项目被GiveWell列为评价最高的慈善机构之一。


94. 美国从1960年到2012年的犯罪事件。谈论犯罪虽然在道德上令人反感,但在电视上节目开个玩笑还是无伤大雅的。


95. 发起一项为浴室中的Yelp运动怎么样?


96. 你知道在加拿大,杂货店的畅销品是卡夫晚餐(aka通心粉和奶酪)吗?我想知道它在比利时或者台湾销售的怎么样,这里为我们提供了 部分超市的数据


97. 火狐浏览器使用情况的数据。记录比如选项卡的使用数量,活跃状态的时间,隐私标签打开的数目。虽然隐私标签这一词或许会让一些人浮想联翩,但用来比较互联网与实际数据之间准确度还是很不错的。


98. 非常强大的一个数据:Mozilla将Mozilla和Eclipse中发现的 超过20万个bug放到一个数据集中。我很想看看哪些bug导致的奔溃最常见,以及如何预防这些奔溃,当然也只有参考这些数据,才能设计出更好的编程语言。


99. 如果你对设计调度算法感兴趣的话,你会对这一消息感兴趣: Google开放了他们在集群上作业排序的数据集。开发针对数据集的算法可能会帮助未来验证你的发现。毕竟,明天的桌面系统很可能会像今天数据中心一样强大。


100. Techcrunch开放了一个具有超过400 000家公司、投资者和企业家的档案的数据集,此外还有45,000轮投资记录,这或许是一个逆向发现市场需求和投资者的投资倾向的好方法。


101. 125万个delicious.com书签。


102. 美国主要的军事设施分布在哪?


103. 谁是H1-B信用卡的接受者?你可能想知道一些国家是否接受信用卡,或者哪些公司接受大部分的信用卡消费。


104. Twitter用户很有可能被Hacker News的读者跟踪。


105. 这里有 1000年到1903年之间的所有地震数据。将这些数据“喂”给一个神经网络,也许能看到一些关于地震的预测。


106. 我常常想会不会有人做在线人格测试发现比大多数人更神经质?从很多在线性格测试项目中可以得到 大量可用的数据,将性格测试的答案与大众的答案进行比较,就可以找出那些比较神经质的人。


107. 脏话表

来源:CSDN

原文连接: 100+ Interesting Data Sets for Statistics(翻译/蔡仁君、毛梦琪 责编/仲浩)

周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【一】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【二】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【三】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【四】
周末巨献:100+诡异的数据集,20万Eclipse Bug、死囚遗言等【五】
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Eclipse CLIPS Clip lips PSE 恐怖事件 扑克牌 数据库 标签 大学

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
较拉峭 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

沙发
linc09 发表于 2015-6-24 23:54:19 |只看作者 |坛友微信交流群
这个有意思

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 20:05