发帖

楼主: 698348

2524 1

[Hadoop] 基于Hadoop大数据分析应用场景与实战 [推广有奖]

0关注
110
粉丝

已卖：51份资源

副教授

37%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 51 个
通用积分: 7.0282
学术水平: 67 点
热心指数: 82 点
信用等级: 30 点
经验: 8628 点
帖子: 450
精华: 1
在线时间: 163 小时
注册时间: 2017-2-7
最后登录: 2025-8-11

楼主

698348

发表于 2017-10-7 14:53:18 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化，京东的京麦团队在京东大数据平台的基础上，采用了Hadoop等热门的开源大数据计算引擎，打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。

Hadoop的应用业务分析

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

目前主流的三大分布式计算系统分别为：Hadoop、Spark和Strom：

1.Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。
2.Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。Spark构建在HDFS上，能与Hadoop很好的结合。它的RDD是一个很大的特点。
3.Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能。

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。

Hadoop适用于海量数据、离线数据和负责数据，应用场景如下：

场景1：数据分析，如京东海量日志分析，京东商品推荐，京东用户行为分析；
场景2：离线计算，（异构计算+分布式计算）天文计算；
场景3：海量数据存储，如京东的存储集群。

基于京麦业务三个实用场景：

京麦用户分析
京麦流量分析
京麦订单分析

都属于离线数据，决定采用Hadoop作为京麦数据类产品的数据计算引擎，后续会根据业务的发展，会增加Storm等流式计算的计算引擎，下图是京麦的北斗系统架构图：

QQ截图20171007144710.png

图1 京东北斗系统

浅谈Hadoop的基本原理

Hadoop分布式处理框架核心设计：

1.HDFS ：（Hadoop Distributed File System）分布式文件系统；
2.MapReduce：是一种计算模型及软件架构。

HDFS

HDFS（Hadoop FileSystem），是Hadoop的分布式文件存储系统。

将大文件分解为多个Block，每个Block保存多个副本。提供容错机制，副本丢失或者宕机时自动恢复。默认每个Block保存3个副本，64M为1个Block。将Block按照key-value映射到内存当中。

QQ截图20171007144719.png

图2 数据写入HDFS

QQ截图20171007144726.png

图3HDFS读取数据

MapReduce

1.MapReduce是一个编程模型，封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce实现最开始是映射map，将操作映射到集合中的每个文档，然后按照产生的键进行分组，并将产生的键值组成列表放到对应的键中。化简（reduce）则是把列表中的值化简成一个单值，这个值被返回，然后再次进行键分组，直到每个键的列表只有一个值为止。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个分治算法。

算法：

1.MapReduce计划分三个阶段执行，即映射阶段，shuffle阶段，并减少阶段。
2.映射阶段：映射或映射器的工作是处理输入数据。一般输入数据是在文件或目录的形式，并且被存储在Hadoop的文件系统（HDFS）。输入文件被传递到由线映射器功能线路。映射器处理该数据，并创建数据的若干小块。
3.减少阶段：这个阶段是：Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后，它产生一组新的输出，这将被存储在HDFS。

QQ截图20171007144737.png

图4MapReduce

HIVE

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，这套SQL 简称HQL。使不熟悉mapreduce的用户很方便的利用SQL 语言查询，汇总，分析数据。而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。

QQ截图20171007144744.png

图5HIVE体系架构图

由上图可知，hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件：CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。

Hadoop走过来的那些坑

进行HIVE操作的时候，HQL写的不当，容易造成数据倾斜，大致分为这么几类：空值数据倾斜、不同数据类型关联产生数据倾斜和Join的数据偏斜。只有理解了Hadoop的原理，熟练使用HQL，就会避免数据倾斜，提高查询效率。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：Hadoop Hadoop大数据分析大数据分析大数据大数据管理

[Hadoop] 基于Hadoop大数据分析应用场景与实战 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[Hadoop] 基于Hadoop大数据分析应用场景与实战 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群