昨日阅读3小时,总计68.5小时
ch2.关系型数据的收集
本章介绍与数据收集相关的工具和系统。有关系型数据和非关系型数据。这里主要谈关系型数据。
MySQL、Oracle等RDB中的数据,需要导入到HDFS或HBase这样的大数据存储系统中,以便使用MapReduce、Spark这样的分布式计算技术进行高效分析和处理。
另外,为了便于与前端的数据可视化系统对接,通常需要将Hadoop大数据系统分析产生的结果(如报表,通常数据量不大)导回关系型数据库。
Sqoop(SQL to Hadoop)工具
动机:数据迁移-----实现RDB到Hadoop的数据传输问题,构建了两者间桥梁。可一次性将数据导入到Hadoop存储系统。
可视化分析结果------绝大部分可视化工具与RDB对接比较好
数据增量导入-------Hadoop对事务的支持比较差,凡涉及事务的应用,如支付平台等,后端的存储系统均会选择RDB,而事务相关的数据,如支付行为,可能在Hadoop分析过程中用到。为了减少Hadoop分析过程中影响广告系统、推荐系统的性能,通常不会直接让Hadoop访问这些RDB,而是单独导入一份到Hadoop存储系统中。
特点:性能高、易用、灵活的数据导入导出工具。
基本思想及特点:
插拔式Connector架构(可选择Sqoop自带的,也可以选择数据库提供商发布的Native Connector,也可以自己定制)
特点:性能高(并发度可控、容错性高、扩展性高)、自动类型转换(读取数据元信息,自动完成数据类型映射,用户也可以自定义类型映射关系)、自动传播元信息,保证发送和接收端一致的元信息。