昨日阅读4小时,总计9.5小时
《大数据技术概论-从虚幻走向真实的数据世界》--娄岩---清华Press-2017.1
从初学者易于理解的角度,介绍基础知识,并与具体应用结合,借助可视化图表剖析大数据的技术和原理。
主要包括大数据概论、采集及预处理、大数据分析、可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、相关案例。
ch1. 大数据技术概述
基本概念:IaaS(HDFS/cStor/VMware/OpenStack) ---> PaaS(MapReduce/JobKeeper/HBase/DataCube)----> SaaS(Mahout)
网络是大数据的主要载体之一
大数据的来源:信息管理系统、网络信息系统、物联网系统、科学实验系统
大数据产生的三个发展阶段:被动式生成数据、主动式、感知式生产数据。
大数据处理流程:
1.结构化Data(RDBMS)、半结构化Data(Html)、非结构化Data(文档数据)------>
2.数据抽取、数据集成 ----->
3.机器学习、数据挖掘、数据统计 ------>
4.可视化、人机交互 ------>
5.科研人员、政府用户、企业用户
大数据技术架构:四层堆栈式技术架构(基础层、管理层、分析层、应用层)
大数据整体技术和关键技术:数据采集(ETL工具负责)、数据存取(关系数据库/NoSQL/SQL)、基础架构(云存储/分布式文件存储)、数据处理(NLP)、统计分析、数据挖掘、模型预测、结果呈现。
关键技术:采集技术、预处理技术、存储和管理技术、开发大数据安全技术、分析及挖掘技术
大数据分析五种典型工具
1. Hadoop:能对大量数据进行分布式处理的软件框架,一个让用户轻松架构和使用的分布式计算平台(高可靠性、高扩展性、高效性、容错性),以Java语言编写,能在Linux下非常理想,也可以用C++在Hadoop上开发应用程序编写
2. Spark:一个基于内存计算的开源集群计算系统,目的是更快速地进行数据分析。(由Berkeley AMP实验室Matei团队,使用Scala开发 ,核心部分的代码只有63个Scala文件,非常轻量级,提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,在某些工作负载上Spark表现更优秀),支持Java、Scala、Python开发,自带80多个高级操作符,允许Shell交互查询;实时流处理,能与Hadoop集成和整合,活跃和壮大的社区。
3. HPCC(高性能计算与通信)
IITA(信息基础结构技术和应用)
4. Storm:开源软件,分布式、容错的实时计算系统。可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据。简单、支持多编程语言,由Twitter开源而来,知名的企业应用有Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster。提供实时分析、在线机器学习、不停顿的计算、分布式RPC协议、ETL等,其处理速度惊人,每个结点每秒可以处理100万个数据元组,可扩展、容错、易设置和操作。
5. Apache Drill:加快Hadoop数据查询的方法。为互联网应用提速。实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析Google分布式构建系统上的测试结果等。
大数据未来发展趋势:
数据资源化
数据科学和数据联盟的成立(催生新的学科和行业、数据共享)
大数据隐私和安全问题
开源软件成为推动大数据发展的动力
大数据全方位改善社会生活
概论性质的内容