楼主: Smartbi
609 0

[数据] Smartbi10步带你认识大数据和云计算 [推广有奖]

  • 0关注
  • 0粉丝

博士生

76%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0.0327
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2606 点
帖子
126
精华
0
在线时间
220 小时
注册时间
2020-12-3
最后登录
2022-2-14

楼主
Smartbi 企业认证  发表于 2021-1-19 19:08:24 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

麦粉们大家好啊~~Smartbi连续几期分享的Smartbi行业案例,得到了大家的热情反馈,在此Smartbi向大家说声:谢谢了!你们的支持,是Smartbi前进的最大动力,Smartbi一定再接再厉,为大家带来更多的案例、更多的干货…

那么,本期Smartbi为大家带来什么干货呢?别急,且听Smartbi用深入浅出、通俗易懂的语言,分10步带领大家认识“大数据”和“云计算”这两个当下最流行的概念,保证大家有所收获,以后碰到相关的概念不会两眼一抹黑…是不是心动了呢?那就让我们开始吧!

第一步:大数据

“大数据”这个概念是近几年开始火起来的,现在可谓是无处不在了。在了解什么是大数据之前,我们先了解一下什么是传统数据?

传统数据就是IT业务系统里面的数据,如客户资料、财务数据等。这些数据是结构化的,量也不是特别大,一般只是TB级。对比传统数据,还有一种叫“新数据”,是来源于社区网络、互联网等渠道,包括文本、图片、音频、视频等非结构化的数据。目前全世界75%以上都是非结构化数据,而且还一直呈现爆炸性的增长。我们看看下面的图就更好理解了:

大数据就是:结构化的传统数据+非结构化的新数据。

因而,大数据还具有以下特点,简称“4V”:

l Volume(大量):数据体量巨大,从TB级别,跃升到PB级别;

l Variety(多样):数据类型繁多,有网络日志、视频、图片、地理位置信息等;

l Velocity(高速):处理速度快,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同;

l Value(价值):只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。

第二步:大数据组成

大数据系统由基础设施、平台和应用组成。对比我们平时使用的电脑,基础设施就是电脑这台硬件,平台就是装在里面的操作系统,应用就是操作系统上面的各种应用程序。

大数据的应用五花八门,但总体上可分为“业务应用”和“数据分析”两大类。

前者包括ERP、CRM等业务系统,后者指的是各种分析应用,包括经营分析、价值分析、人流分析等等。分析系统从业务系统获取源数据,经过分析后可以反哺业务系统,对其进行赋能(注智),让其具有智慧。说到这里,大家是不是觉得有点熟悉了?跟我们的BI是不是有某些联系呢?没错了,“大数据平台”和“数据分析系统”加在一起就是BI的升级版啊!既然是升级版,它与传统BI有什么区别呢?请看下面就知道啦。

l 成本更低廉

去IOE,硬件采用廉价的X86,软件更多使用开源,节省成本

l 容灾性好

平台部署在X86集群上,机器出问题可随时切换

l 扩展性好

X86集群可根据需要随时进行扩展,提高灵活性

l 处理效率高

当数据达到TB级别,处理效率显著提高

l 处理类型多

可以处理结构化、半结构化、非结构化数据

l 进一步挖掘价值

处理的数据量大,类型多,因而可进一步挖掘数据的价值。

是不是有很多升级的地方呢?为了支持这些升级,大数据系统需要具备哪些功能呢?这就涉及到架构问题了,跟着Smartbi继续往下看吧。

第三步:大数据架构

我们已经知道大数据系统由基础设施、平台和应用组成,我们现在进一步细分,请看下图:

基础设施由通过局域网或互联网连接的X86集群组成,为大数据平台提供最基本的硬件支持。

大数据平台由基础架构、数据处理和数据服务三部分组成

基础架构负责对基础设施进行系统管理,为数据处理提供分布式底层服务;数据处理负责数据的采集、存储、计算;数据服务负责将处理后的数据提供给上层应用使用。大数据应用是面向用户的各种应用系统,包括业务应用和数据分析。大数据系统的总体架构就是这样子,是不是跟我们平时见到的BI架构很像呢? 通过这个表格对比我们就更清楚了:

下面我们将围绕这个架构展开说明。理解了这个架构,Smartbi的目的也就达到啦。

第四步:虚拟化

基础设施提供计算、存储、网络三种能力,是大数据平台的根基。但是如何解决以下问题:

l 大量的机器如何管理

当集群的状态改变,也即增加或者减少一些机器的时候,难道要去修改平台的配置吗?

l 如何充分利用系统资源

当集群的能力只使用了一部分,而这个时候需要一部新的机器用来部署其它系统,难道是从集群上拆下一部机器来提供吗?

l 如何解决弹性问题

当高峰期的时候,系统可能需要20部机器,平时只需要10部。那么我们是提供多少部合适呢?如果提供20部,平时空闲下来的10部如何处理?

这些问题有一种解决方法:虚拟化。就是把集群作为一个整体进行管理,可以根据需要从某些机器中调配相关资源,快速组成一部“新的机器”。例如可以用机器A的CPU1/2性能、1/3的内存,和机器B的1/5硬盘组成。

当集群的状态改变时,我们只需要修改虚拟化软件的配置,减少对平台的影响。当集群有多余的资源时,可以虚拟出一些新的机器给其它系统使用,充分利用了系统资源。

虚拟化的主流商业软件是Vmware,开源的软件有Xen、KVM等。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:smart Mart SMA 大数据 RTB

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 09:40