spark动机:
复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。
基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。
基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。
spark优点:
Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。
Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引.
Spark的适用面比较广泛且比较通用。
子目录 功能
Assembly 组装spark项目的地方
ec2 提交spark集群到Amazon EC2
external 与一些外部系统的依赖
extra 包含了spark默认不构建的组件
repl Spark shell功能模块
tools 工具包