在hadoop实战中,Hadoop能解决很多问题.Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处理失败节点。已经在具有600个节点的集群测试过Hadoop框架。
海量数据需要及时分析和处理。
海量数据需要深入分析和挖掘。
数据需要长期保存
问题:
磁盘IO成为一种瓶颈,而非CPU资源。
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
hadoop实战_hadoop,详见附件内容