习题答案
1. 简答题
( 1)简述大数据业务处理的基本流程与关键技术。
大数据处理流程为数据采集与预处理、 数据存储与数据分析、数据可视化与应用。
技术层面 | 功能 |
数据采集 | 利用 ETL 工具将分布的、异构数据源中的数据如关系数据、平面数据文件 等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数 据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的 数据作为流计算系统的输入,进行实时处理分析 |
数据存储 和管理 | 利用分布式文件系统、数据仓库、关系数据库、 NoSQL 数据库、云数据库等, 实现对结构化、半结构化和非结构化海量数据的存储和管理 |
数据处理 与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现 对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理 解数据、分析数据 |
数据可视 化 | 对分析结果进行可视化呈现, 帮助人们更好地理解数据、 分析数据 |
数据隐私 和安全 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据 保护体系和数据安全体系,有效保护个人隐私和数据安全 |
数据量大( Volume)、速度快(Velocity)、数据类型多样(Variety)和价值密度低( Value)。