1.纽约股票交易所,每天产生数据量为4-5 terabytes(兆字节)
2.Facebook有超过240 billon照片 ,每个月增长7 petabytes,每天有18亿张照片上传或被传播,形成海量数据
3.家谱网站Ancestry.com,存储约10 petabyte数据
4.互联网档案约存储18.5 petabytes数据
5.瑞士日内瓦附近的大型粒子对撞机,每年产生约30 petabyte数据
6.2015年落成的世界最大观天望远镜主镜头像素为3.2G,每年将产生6PB天文图像数据;
7.欧洲生物信息研究中心(EBI)基因序列数据库容量已达5PB;中国深圳华大基因研究所成为全世界最大测序中心,每天产生300GB基因序列数据(每年100TB)
二、为什么需要Hadoop
Hadoop已经被业界公认为是用于大数据的通用存储和分析平台”,许多大型企业软件供应商,开始对Hadoop提供商业支持,包括EMC、IBM、Microsoft和Oracle,以及专门的Hadoop公司如Cloudera、Hortonworks和MapR。
Hadoop应用大致可以分为这两类:
IT优化:
已经实现的应用和业务搬迁到Hadoop平台,以获得更多的数据、更好的性能或更低的成本。这几年Hadoop在数个此类应用场景中已经被证明是非常适合的解决方案,包括:历史日志数据在线查询、ETL任务、数据仓库offload
业务优化
在Hadoop上实现原来尚未实现的算法、应用,从原有的生产线中孵化出新的产品和业务,创造新的价值,通过新业务为企业带来新的市场和客户,从而增加企业收入。
三、大数据应用——Web网站日志分析
案例演示流程:
step 1:
使用Flume来完成Apache服务器日志收集工作,并自动上传到指定的HDFS系统中存储;
step 2:
使用MapReduce将HDFS中进行数据清洗
step 3:
使用Hive对清洗后的数据进行统计分析
step 4:
使用Sqoop将Hive统计后的数据导出到关系型数据库MySQL
step 5:
使用数据可视化技术呈现分析结果
Web网站日志案例具体应用参考以下视频
小白如何快速大数据领域呢?现在有一个好机会,CDA就业班助你圆梦,高薪就业。
CDA数据分析研究院总结了数据分析师的成长历程,根据企业不同阶段的用人需求研发出了「CDA数据分析就业培训班」和「CDA大数据分析就业培训班」课程体系,以数据分析理论与实践案例结合的方式讲授,内容覆盖了国内企业招聘数据分析师岗位所需的技能,学员经过全面的脱产学习,达到企业用人标准,快速在大数据时代找准工作定位,抓住大时代的大机遇!
CDA就业班近期开课计划
第六期CDA大数据分析就业班6月18日于北京开课
十一期CDA数据分析就业班6月25日于北京开课
十二期CDA数据分析就业班7月9日于深圳开课
十三期CDA数据分析就业班7月23日于上海开课
PS:6月9日本期就业班毕业答辩,实用的毕业设计报告,感兴趣企业和个人可以私聊课程老师。
在线咨询:
座机:010-68456523(张老师)
QQ:2881989712
邮箱:zhangwei@pinggu.org