楼主: 数术
6766 15

海量数据集集合,包括机器学习、语义文本、图像领域、社会公共、科学实验等领域 [推广有奖]

学科带头人

20%

还不是VIP/贵宾

-

TA的文库  其他...

Excel学习笔记

经管职场

投资,最重要的事

威望
3
论坛币
9995972 个
通用积分
928.6862
学术水平
349 点
热心指数
435 点
信用等级
316 点
经验
38937 点
帖子
473
精华
9
在线时间
383 小时
注册时间
2015-9-10
最后登录
2020-8-30

楼主
数术 在职认证  发表于 2018-12-10 14:02:37 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

该资源所提到的数据集包括机器学习、网络通信、图像领域、社会公共领域、科学、社会科学、时间序列、文本以及互联网相关领域,由于数据量太大,只能将各个数据集的下载链接做了归类供大家学习使用。


  大数据



大数据

1.https://delicious.com/pskomoroch/dataset

2.http://stackoverflow.com/questio ... rge-data-for-hadoop

3. http://konect.uni-koblenz.de/



搜狗实验室

http://www.sogou.com/labs/resources.html?v=1



气象数据集

https://www.ncdc.noaa.gov/data-access/quick-links



气候监测数据集

http://cdiac.ornl.gov/ftp/ndp026b



机器学习


开放数据集大列表

https://skymind.ai/wiki/open-datasets



亚马逊网络服务数据

http://aws.amazon.com/datasets



航空公司数据 (2009 年 ASA 挑战)

http://stat-computing.org/dataexpo/2009/the-data.html



澳大利亚天气

http://www.bom.gov.au/climate/dwo/



因果关系工作台

http://www.causality.inf.ethz.ch/repository.php



Kaggle 竞争数据

https://www.kaggle.com/datasets



KDNuggets 竞争网站

www.kdnuggets.com/datasets/



机器学习的数据集存储库

http://mldata.org/



医疗保险数据文件

http://go.cms.gov/19xxPN4



微软研究院

http://research.microsoft.com/apps/dp/dl/downloads.aspx



百万歌曲数据集

http://blog.echonest.com/post/3639160982/million-song-dataset



歌曲数据集

http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets



RDataMining.com R 数据挖掘电子书数据

http://www.rdatamining.com/data



革命分析集合

http://www.revolutionanalytics.com/subscriptions/datasets/



社交网络

http://www.cs.cmu.edu//ancestry.com/ ~jelsas / 数据



UCI 机器学习库

http://archive.ics.uci.edu/ml/



535 亿点击

1.http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset

2.http://archive.ics.uci.edu/ml/

3.http://www.ics.uci.edu/~mlearn//MLRepository.htm



机器学习样本数据库

1.http://kdd.ics.uci.edu/

2.http://www.ics.uci.edu/~mlearn/MLRepository.html



关于基金的数据挖掘的网站

http://www.gotofund.com/index.asp



数据生成器的链接

http://www.cse.cuhk.edu.hk/~kdd/data_collection.html



癌症基因

http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi



金融数据

http://lisp.vse.cz/pkdd99/Challenge/chall.htm



网络



斯坦福大学大型网络数据收集

http://snap.stanford.edu/data/



微软匿名网络数据

http://kdd.ics.uci.edu/databases/msweb/msweb.html



MSNBC 匿名网络数据

http://kdd.ics.uci.edu/databases/msnbc/msnbc.html



SyskillWebert Web 数据

http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html



图像


火星数据集:好奇号火星车在火星上收集的大约32,000张彩色图像,显示了火星的各种地理和地质特征,如山脉和山谷,陨石坑,沙丘和岩石地形

https://dominikschmidt.xyz/mars32k/

ImageNet (包含 1400 万的图像)

http://www.image-net.org/



Tiny Images Dataset (包含 8000 万的 32x32 图像)

http://horatio.cs.nyu.edu/mit/tiny/data/index.html



MirFlickr1M (包含 100 万的图像)

http://press.liacs.nl/mirflickr/



CoPhIR (包含 1 亿 600 万的图像 )

http://cophir.isti.cnr.it/whatis.html



SBU captioned photo dataset (包含 100 万的图像)

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/



Large-Scale Image Annotation usingVisual Synset(ICCV 2011) (包含 2 亿图像 )

http://cpl.cc.gatech.edu/projects/VisualSynset/



NUS-WIDE(包含 27 万的图像)

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm



SUN dataset (包含 13 万的图像)

http://people.csail.mit.edu/jxiao/SUN/



MSRA-MM (包含 100 万的图像,23000 视频 )

http://research.microsoft.com/enus/projects/msrammdata/



TRECVID

http://trecvid.nist.gov/



卡耐基 - 梅隆的脸图片

http://kdd.ics.uci.edu/databases/faces/faces.html



金星上的火山

http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html



雅虎发布超大 Flickr 数据集 1 亿的图片 + 视频

http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for



100 多个有趣的数据集

http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics



图像处理相关个人主页、研究组及公开数据集网址

http://blog.sciencenet.cn/blog-673472-759786.html



Public Domain Collections



Data360

http://www.data360.org/index.aspx



Datamob.org

http://datamob.org/datasets



Factual

http://www.factual.com/topics/browse



Freebase

http://www.freebase.com/



Google

http://www.google.com/publicdata/directory

infochimps: http://www.infochimps.com/



numbray

http://numbrary.com/



Quora

https://www.quora.com/Data/Where-can-I-find-large-datasets-open-to-the-public



RS Collection 100+

http://rs.io/2014/05/29/list-of-data-sets.html



Sample R data sets

http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html



SourceForge 研究数据

http://www.nd.edu/ oss / 数据 / 研究司



StatSci.org

http://www.statsci.org/datasets.html



UFO 报告

http://www.nuforc.org/webreports.html



维基解密 911 寻呼机截取

http://911.wikileaks.org/files/index.html



Stats4Stem.org:R 数据集

http://www.stats4stem.org/data-sets.html



《华盛顿邮报》名单

http://www.washingtonpost.com/wp-srv/metro/data/datapost.html



科学



农业实验

http://www.insider.org/packages/cran/agridat/docs/agridat



气候数据

http://www.cru.uea.ac.uk/cru/data/temperature/#datter

and ftp://ftp.cmdl.noaa.gov/



Gene Expression Omnibus

http://www.ncbi.nlm.nih.gov/geo/



Geo Spatial Data

http://geodacenter.asu.edu/datalist/



Human Microbiome Project

http://www.hmpdacc.org/reference_genomes/reference_genomes.php



MIT Cancer Genomics Data

http://www.broadinstitute.org/cgibin/cancer/datasets.cgi



NASA

http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html



NIH Microarray data

ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/(R)



Protein structure

http://www.infobiotic.net/PSPbenchmarks/



Public Gene Data

http://www.pubgene.org/



斯坦福大学的微阵列数据

http://smd.stanford.edu/



社会科学


综合社会调查

http://www3.norc.org/GSS + 网站 /



ICPSR

http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp



皮尤研究

http://www.pewinternet.org/datasets/pages/2/



加州大学洛杉矶分校的社会科学档案

http://dataarchives.ss.ucla.edu/Home.DataPortals.html



UPJOHN 本月

http://www.upjohn.org/erdc/erdc.html



时间序列



时间序列数据库

http://robjhyndman.com/TSDL/



澳大利亚手语数据

http://kdd.ics.uci.edu/databases/auslan/auslan.html



高质量的澳大利亚手语数据

http://kdd.ics.uci.edu/databases/auslan2/auslan.html



脑电图数据

http://kdd.ics.uci.edu/databases/eeg/eeg.html



日本的元音

http://kdd.ics.uci.edu/databases/JapaneseVowels/JapaneseVowels.html



Pioneer-1 移动机器人数据

http://kdd.ics.uci.edu/databases/pioneer/pioneer.html



伪周期合成时间序列

http://kdd.ics.uci.edu/databases/synthetic/synthetic.html



合成控制图时间序列

http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.html



大学



卡内基梅隆大学安然电子邮件

http://www.cs.cmu.edu/~ 安然 /



卡内基梅隆大学 StatLab

http://lib.stat.cmu.edu/datasets/



龙骨存储库

http://sci2s.ugr.es/keel/datasets.php



卡内基梅隆大学 JASA 数据归档

http://lib.stat.cmu.edu/jasadata/



俄亥俄州立大学财务数据

http://fisher.osu.edu/fin/osudata.htm



加州大学伯克利分校

http://ucdata.berkeley.edu/



加州大学洛杉矶分校

http://aws.amazon.com/datasets



加州大学河滨分校时间序列

http://www.cs.ucr.edu/ /time_series_data /



多伦多大学

http://www.cs.toronto.edu / 深入 / 数据 / datasets.html



UCI 知识发现 (KDD) 归档

http://kdd.ics.uci.edu/



信息和计算机科学

http://www.ics.uci.edu/



加州大学欧文分校

https://uci.edu/



互联网相关数据集



Dataset for "Statistics andSocialNetwork of YouTube Videos"

http://netsg.cs.sfu.ca/youtubedata/



1998 World Cup Web Site AccessLogs

http://ita.ee.lbl.gov/html/contrib/WorldCup.html

(从 1998/04/26 到 1998/07/26 的 92 天中,发生了 1,352,804,107 次请求)



Page view statistics for Wikimediaprojects

http://dammit.lt/wikistats/



AOL Search Query Logs - RP

http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs



livedoor gourmet

http://blog.livedoor.jp/techblog/archives/65836960.html



离散序列数据



UNIX 用户数据

http://kdd.ics.uci.edu/databases/UNIX_user_data/UNIX_user_data.html



主菜芝加哥推荐数据

http://kdd.ics.uci.edu/databases/entree/entree.html



多元数据


异常检测相关资源大列表

https://github.com/hoya012/awesome-anomaly-detection


人口收入调查数据库

http://kdd.ics.uci.edu/databases/census-income/census-income.html



线圈数据

http://kdd.ics.uci.edu/databases/coil/coil.html



Corel 图像特征

http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html



森林 CoverType

http://kdd.ics.uci.edu/databases/covertype/covertype.html



保险公司基准 (2000 卷)

http://kdd.ics.uci.edu/databases/tic/tic.html



互联网使用数据

http://kdd.ics.uci.edu/databases/internet_usage/internet_usage.html



IPUMS 人口普查数据

http://kdd.ics.uci.edu/databases/ipums/ipums.html



KDD CUP 1998 数据

http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html



KDD CUP 1999 数据

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html



1990 年美国人口普查数据

http://kdd.ics.uci.edu/databases/census1990/USCensus1990.html



关系数据



大肠杆菌基因

http://kdd.ics.uci.edu/databases/ecoli/ecoli.html



结核分枝杆菌基因

http://kdd.ics.uci.edu/databases/tb/tb.html



电影

http://kdd.ics.uci.edu/databases/movies/movies.html



MovieLens 数据集

http://datahub.io/dataset/movielens



厄尔尼诺现象的数据

http://kdd.ics.uci.edu/databases/el_nino/el_nino.html



文本


(
日文数字图书馆)青空文库(Aozora)数据集

https://github.com/aozorabunko/aozorabunko

自然语言处理(NLP)最新进展/相关资源跟踪大列表

https://github.com/sebastianruder/NLP-progress

今日头条中文新闻(文本)分类数据集

https://github.com/fateleak/toutiao-text-classfication-dataset

20 新闻组数据

http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html



路透社 - 21578 文本分类收集

http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html



路透转录子集

http://kdd.ics.uci.edu/databases/reuters_transcribed/reuters_transcribed.html



摘要 1990- 2003 年 NSF 研究奖项

http://kdd.ics.uci.edu/databases/nsfabs/nsfawards.html



其他

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html

http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog

http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.web-caching.com/traces-logs.html

http://www-2.cs.cmu.edu/webkb

http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf

http://www.cs.cornell.edu/projects/kddcup/index.html


转自AI研习社



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:卡内基梅隆大学 人口普查数据 时间序列 加州大学 机器学习 机器学习 网络通信 图像领域 社会公共领域 科学

本帖被以下文库推荐

沙发
数术 在职认证  发表于 2018-12-10 14:06:44 |只看作者 |坛友微信交流群
有个别链接会暂时性不能访问

使用道具

藤椅
数术 在职认证  发表于 2018-12-10 14:07:01 |只看作者 |坛友微信交流群
欢迎收藏分享

使用道具

板凳
客初 企业认证  学生认证  发表于 2018-12-10 14:07:42 |只看作者 |坛友微信交流群
不错,喜欢这样齐全的整理

使用道具

报纸
游码 在职认证  企业认证  发表于 2018-12-10 14:11:05 |只看作者 |坛友微信交流群
学习中的确需要大量的优质数据集,期待更多这样的整理

使用道具

地板
jinlu310 在职认证  发表于 2018-12-10 14:13:41 |只看作者 |坛友微信交流群

使用道具

7
东方祥 企业认证  发表于 2018-12-10 14:14:33 |只看作者 |坛友微信交流群
手动点赞!

使用道具

8
flyfreedream 发表于 2018-12-10 15:39:16 |只看作者 |坛友微信交流群
支持支持

使用道具

9
小瓶九阳丹 发表于 2018-12-10 15:52:34 |只看作者 |坛友微信交流群
谢谢楼主

使用道具

10
chenddf 学生认证  发表于 2018-12-10 17:08:21 |只看作者 |坛友微信交流群
楼主很凶残!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 03:06