1,hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。2,适合海量非结构化数据历史数据存储分析,及数据挖掘 (文本,XML,图片等)
一,什么是Hadoop
三,Hadoop优点
1,高效性,接收到客户数据请求后,Hadoop可以所在的集群节点上并发处理。2, 可靠性,Hadoop自动存储多份副本,请求数据失败之后,会自动部署计算任务。 3。 扩展性,既然是集群,当然可以扩展增加节点。
OverView
HDFS分布式文件系统
Hive metaStore数据仓库
外部数据源
Sqoop(ETL工具)
FTP
文本
其他
分布式存储
Hbase时实分布式数据库
数据处理
MapReduce计算框架
Pig(流式处理)
Hive QL(SQL查询)
Mahout(数据挖掘)
数据应用
API
数据挖掘
搜索引擎
…….
当我们数据集大小超过一台物理计算机的存储能力时,就必要对他进行分区,并存储到若干台计算机上,跨多台计算机的存储文件系统叫分布式文件系统,它是构建在Linux之上的存储系统,在Linux上是看不 ...


雷达卡




京公网安备 11010802022788号







