大数据的处理流程包括了哪些环节?每个环节有哪些主要工具?
有很多小伙伴刚刚入门大数据分析,对于一个完整的大数据分析流程没有一个清晰的掌握。总体来说大数据的处理流程包括采集层,预处理层,整合,分析&展现等。
采集层:采集机、报文、离线数据、在线录入等
预处理层:Hadoop map reduce、java程序、SAS可以方便处理不规则文本文件、实时型可以用storm
整合:IBM DataStage、Oracle Data Integrator
分析&展现:R、SAS、SPSS