人大经济论坛 › 论坛 › 经济学人二区 › 学术资源/课程/会议/讲座 › 2017年中国数据分析师行业峰会：大数据与云计算_分会场（ ...

发帖

楼主: admin_kefu

2049 3

[经济类] 2017年中国数据分析师行业峰会：大数据与云计算_分会场（之二） [推广有奖]

4关注
1180
粉丝

客服管理员

已卖：255份资源

泰斗

84%

还不是VIP/贵宾

TA的文库 其他...

管理文库

威望: 3 级
论坛币: 31081108 个
通用积分: 13868.6677
学术水平: 546 点
热心指数: 668 点
信用等级: 528 点
经验: 297135 点
帖子: 10901
精华: 13
在线时间: 36846 小时
注册时间: 2010-6-2
最后登录: 2026-1-6

楼主

admin_kefu 发表于 2017-8-11 11:37:16 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

2017年中国数据分析师行业峰会：大数据与云计算_分会场（之二）

时间：2017年7月29日

地点：中国大饭店

主题：大数据与云计算-分会场

主持人：时间已经到了九点，这个时刻非常欢迎大家，首先先加入我们的论坛，我们会后可以在里面做一些更多更深入交流，因为会场今天上午时间很有限，稍候会开始我们今天的会议。

2IQ)U$F678~5M5GG`U6A[]T.png

尊敬的各位来宾、小伙伴们，上午好！现在是CDAS2017第四届中国数据分析师行业峰会大数据云计算的分会场，我是主持人代立冬，对大家的到来表示热烈的欢迎，非常欢迎大家的到来，也欢迎各位嘉宾给我们进行比较深入的分享，因为大家在数据行业做了很多年，接下来先进行第一场的关于云计算基础设施服务的，大家知道随着移动互联网与大数据的爆发给我们企业架构和运维带来很多挑战，很多这样的数据公司可能选择慢慢的把自己的服务进行云化这样的一个方向，其实给我们的云基础设施带来了很多挑战，请第一位嘉宾，承载美团电平的云计算与基础设施服务，美团云的开发运维专家雷雨同学给大家进行一个分享，热烈欢迎。

雷雨：我跟大家讲一下我们美团云这一边基础设施运维和自动化方面的实践和探索，对于大数据来说偏底层一些，我们这边云计算基础设施运维的大团队，我直接进入正题。

在美团和点评来说，所有内部业务和对外公有云上了云平台，所有业务，DPI和大数据这些用户需要物理集群，其他的业务跑在虚拟机上，有传统的基因，服务的框架结构大概这样的，中间才是美团云，下面IDC服务器和网络，下面美团云，承载外卖、猫眼、美团、点评，以及酒旅，公有云用户，整个相当于美团云的平台。今天主要讲处于美团云底层的基础设施的探索，这是基础设施分层的结构图，底层的物理层用服务器，大家都是互联网云计算圈里的人士，对这些都比较了解，大概分层的介绍，物理层上面主要是服务器、网络设备，以及一些多米环境的设施，IT层，还有IP层，再往上DNS，NTP还有一些HTTP的服务，这是基础设施服务方面分层的结构介绍。

下面直接切入一个网络方面的高可用的一些探索，这是我们一般来说现在标准的数据中心的网络结构，基本上这样一个形态，上面是运营商的网络，接下来是两个外网核心的设备，外网核心设备加的四层负载，包括负载均衡和北向流量的网关设备，接下来数据中心两个内网核心设备，还有交换机和下面的服务器，整个的网络设备中间，我们最主要的一层，从四层来说，做应用分发负载的主要层面在于四层的负载，大家可以看得出来，运营商过来客户的请求流量全部落到我们的路由厂，然后进行路由分发，上面承载整个美团的业务，包括现在所有APP的通道，包括我们的长连接做的其他路由通道，所以整个这一层的，因为全部是普通服务器，稳定性直接决定业务稳定性，所有业务在上面，大家可以看，一个普通的服务器，我们的从服务器的运维经验，一个服务器三年的质保期内，故障率在1%左右。作为基础设施平台这样集群化的服务，单台的稳定性决定整个集体的可用性，可以保持两个九左右的稳定性，这样对于我们这么大规模的业务来说不可接受的，所以我们在这方面探索了一个同步的功能，就是用户从公网进来可以访问，落到某个方面以后，分发到后端，当这台机器故障的时候，是可以漂移其他节点，其他节点继续往下走的。

下面直接介绍一下一个验证，这是四层负载均衡设备的结构优化，实现session同步，这是刚才上面的两个外网核心设备，这是我们的一个集群，每个集群原有的结构上分出一支来做一个二层的广播设备，然后做到集群内部的session表同步，可以是session在集群内部的漂移。做了这样一个功能以后，可能会有一定的问题是什么呢？当我单台的session里面承载力是四千八百万，整个集群的容量，因为每个节点会有集群下全量session的内容，所以整个集群session的容量四千八百万，是什么概念呢？整个现在我们的业务，美团点评整个的业务来说，单点机器上一个集群量一千万到两千万之间，这是集群切割控制的，远远高于我们的需求的。这个功能做出来以后，整个能实现到百万session的切换率为零，session后续会做到增量的同步，可能每个节点不会有所有集群内部全量的session内容，可能会做策略性的分发会提高整个集群的容量。

如图，这是比较现实的测试用力，模仿了刚才说的，如果一个MGW节点故障，用户感觉长连接断开，不可用的一个体验，对于业务运维来说之间能感受有包括数据库这种对实时连接特别敏感的连接都会感知到，内部调度很多报错需要排查，现在模仿四个连接客户端的下载，这边是流量图，上面每个客户端下载连接的图，这边是整个集群内部状态流量的图，可以看出这个点上，我们把一台机器当掉，模仿是机器的鼓掌当机，同一个核心下另外一个节点流量漂移过来，更主要的是，这个漂移是路由层面，动态路由的效果，用户端感知这个时间点十个连接下载没有任何一个断开，这是我们要追求的效果，集群内部单点故障不会让用户有任何的感知。

我们一个集群四台机器，我们关掉四台当中的三个，故障概率单台机器的概率故障是1%，稳定性两个九，现在已经模仿到了整个集群在六个九情况下的极端概率，就是四台机器当了三台，全部流量承载到一台MGW上，可以看出来，用户所有下载连接没有任何感知的。这个是整个模仿了session同步实现效果以后用户侧的直观感受。

那么故障节点修复以后，上线用户是不是有感知也是我们需要验证的，这个时间点我们恢复整个集群内部四台机器里面三台全部恢复上线以后，流量自动从之前的单点全部均衡到四台机器上，然后流量在集群内部得到均衡以后可以看得出来用户这个时间点上是没有任何感知的。然后这两个连接的结束需要说明一下，我们当时测试的时候打了一个4G的包做十个连接的下载，为了区分图上的一个效果的话，我们做了从一道到两道之间十个连接区分，下载最快的两个连接，4G包测试一个小时直接结束了，和整个没有关系只不过图上的效果。我们这样一个功能可以做到基础设施的四层负载均衡内部30秒同步，对于任何一个单点的故障对用户来说可以无感知。

百万级session迁移的过程当中，miss率可以做到零。除了刚才说的MGW，说一下数据中心内部有DNS服务，怎么做优化，这是用了一下动态协议的用法，可能有一些公司也有一些实践，这是传统意义每个集团DNS服务的配制，相对比较传统，每个数据中心里面会有两台DNSStructure服务器，本机房的配制上会配制两台IP，所有的请求落到这两台Structure上，另外的中心有两台Structure，然后会配IP，各个机房请求自己的DNSStructure，做解析，这是传统的结构，带来的问题是什么？IDC单台机器刚才说的一个两个九，基础服务的稳定性就是两个九，因为当掉以后所有的解析一半是失败的，这个时候可以补救最快这台机器赶快恢复起来，别的更大所有机器的配制刷一遍，终端会更大。这种情况下运维的工作效率和稳定性的保证没法得到更好的体验的。

然后基于此，我们做了一层基于网络动态协议的一个AnyCast布局改造，这是改造后，一个机房两到三台，可以根据机房的负载来看，可以看每个机房的需求，数据根据负载情况来看的，这个和该数据之间跑，这样的话，我们发统一的AnyCastVIP，统一配到这个上面，四个路由作为地址。另外也和核心之间跑，发的四个十的地址，这样本机房的机器上所有的机器全配制四个十的IP，所有的DNS请求走到核心全部下到这三台机器，下到本机房，这个机房路由上优先本机房的转发。先说本机房，当机动态路由协议，直接四个十路由上面直接离线，那么DNSUDP，无状态的，用户没有任何感知，落到这两台，如果这一台机器当机服务落到这一台机器上，这一台机器当机机房就当了，是不是代表机房不可用了？我们全量机房是同步的，这台机房是正常的，三台机器当机以后，下面的机器DNS核心以后，动态路由协议的链路状态的监测，这三台机器全部当机，上面四个十的路由走到超级核心上，超级核心会把自动负载均衡到其他的IDC上，同样是可以解析本机房的主机云，如果做到整个机房的故障都不会影响本地，整个机房的故障代表DNS的故障不会影响本地的DNS解析的服务，稳定性超过六个G。

这是DNS服务，当然利用的一个AnyCast的网络结构，内网没有必要走IOS做转发，直接有一个集群直接到DNSVIP对外提供集群的服务。这是基础服务方面一个是MGW，一个DNS给用户带来直接稳定性高可用的体验。

下面主要说一下我们在网络质量上监测上的一些探索，之前是这样的，可能很多公司也会遇到这种情况，互联网公司来说业务的迭代很快的，包括业务对质量的感知很敏感的，经常会在我们的运维沟通群里面有业务顾问说，刚才网络是不是有错误，业务的运维排查问题的时候，会很头疼，因为看到的是一些日志，顶多看到报错，从内容看到说刚才网络是不是有问题，实际上我们的基础设施运维团队，是很被动的，天天在群里面看到，刚才网络设施是不是有问题，然后来问我们，我们手上没有太好的方式查看，基于监控平台做一些交换机，或者流量采集的一些监控，这些监控代表不了网络质量，所以整个运维还是相对比较被动，业务会反推着问你刚才维护基础设施环境是否有质量的问题。

基于此我们做了内部的尝试和探索，沉淀了一些工具，这是一个结构图，这是做内网质量的探测的拓弧，我们的目标做到我们内部所用的所有网络设备下面的服务器到内部任何一台网络设备下面的服务器之间，网络质量的探测和展示。大概的结构，所有我们的交换机下面选取物理机的埋点，点到点的质量采集，原理比较简单，整个的数据，量级比较大，数据整个上报控制侧，做数据的存储，图形展示以及报警。出来的直观感受就是这样，运维平台上的展示，业务可以直接输入你所怀疑有异常的主机名，我们全部上了虚拟化云平台的，你的主机名输进去以后，可以直接看到，你这台业务在哪台机器上面，在哪台网络下面，然后这是源，这是目的，之前这个时间段内延迟是多少，是直观可以感受到，所有内网的一个ICMP级别的质量对业务全透明，业务有问题排查可以直接在这感受到刚才网络质量的情况，而不是直接在群里面或者去找网络的运维同学去沟通质量的情况，网络的同学同样也可以上面可以感受到刚才查到质量情况，而不是说束手无策的去验证刚才是否有问题。

其实这样的一个结构出来以后，能就觉就是说明运维同学手上有武器，有很多被人挑战的地方，首先做ICMPN对N的采集，大家知道ICMP的采集，最早的这个网络拓弧可以看到，这个圈到这个圈的服务器，可以走的路由，网络设备上ICMP的条数很多的，路由一个机房到另一个数据中心可以走的路由七百多条，所以一个ICMP真实采集并不代表真实感受所走的路径采集，这是被挑战的地方。特别还有ICMP的采集和DCP的转发，质量是有区别的。

基于此我们做了升级，这是现在已经上线的一个全网路由质量监控，同样的还是在一个圈下面做埋点的探测，这一台机器到这一台机器之间，不做简单的ICMP，做TCP，自己写的做一些TCP的P，然后会去向先探测整个我所到的目的地之间有多少种路径可走，构造同样的发包，探测整个TCP的质量，可以覆盖所有业务会走的路由上面的转发质量，这样对于业务来说全覆盖了的。

有一个问题，我们做跨机房和软机房做分离，做跨机房数量指数增长的，所以优先做本机房的质量探测再做一个分层的跨机房的链路探测，所以最后给业务展示出来的效果这样，查询方式一样，员工主机就是这样，但是会告诉你多少路径可走，每条路径怎么样，有一个汇总，展示效果相对来说不是那么完美，现在改进当中，数据量有点大，所以我们在看网络质量，但是实际可以看出同机房四条路由，这一条路由刚才时间段之内延迟有抖动的，做到这个级别用户可以直接感觉是否和网络质量变化有关，做到这个程度基本上我们内部网络的一些调用可能性的情况，质量我们都是会拿到数据，后续会对这些数据基于机房的网络质量的一些，因为这个监控是秒级，十几秒，根据规模有关，十秒以内，会对这些数据做数据的分析，分析内部网络质量，包括网络设备之间对转发性的一些差异的地方。

上面说的基于内网的一些质量探测，公网作为互联网公司来说对于公网的质量依赖也是很重的，经常有业务会说我们哪个地方的网络到达成功率是不是OK的，网络上看看是不是有问题，刚才说的情况，基于此我们做网络的沉淀，网络数据中心到全国各地可以做到每个省的地级市，每个城市有50个以上的不同网段的IP去做确保分段的网络IP做质量的采集，这是全国地图，从北京机房，大家可以看得出来，北京这边，环绕北京最近的地方质量会更好，这也是当时有一天，应该3月份，最近当然也有，南方电信可以很明显的看出来南方电信的质量整体下滑的，会有报警到我们运维同学那里，然后提示对内部业务做提前的通告，不是等着业务找过来确认运营商是否OK。然后在线路上，电信、联通、移动，教育网和鹏博士，这是教育外网的展示，然后一些图。

这样一个外网质量的采集模式，我们有数据中心出去的，以及我们业务到达成功率，相当于说类似于APP的那些请求，因为现在美团的这么多APP上，各个APP的用户从全国各地的上报请求是有一个专门的探测平台对每个APP，每个运营商，每条线路，每个地区的成功率做统计，我们基于这个数据做反向的质量探测，基于数据中心做正向的质量探测，双向的质量探测放在一起可以看到业务处于公网环境的质量。基于整个业务模型以后我们做了一套，在后面拓展了一些对质量整体的大盘，对标我们作为一个云计算公司来说，对标现在是腾讯云和阿里云，我们在华北，这只是华北区，现在延迟什么样的，可以看出来，这个东西实时的，并不代表哪家绝对好，哪家绝对差一些，这个和打点的区域有关，然后就是我们跟各家的一个实时的监控，包括一些质量的对比，这是各家到全国每个省市的延迟分布情况，然后还有一些丢包的情况，这是外网质量大盘，之前只做业务外网质量的通告到可以做行业内的网络质量的一个对比。

上面说的是我们网络上面的一些沉淀，接下来再讲一下资源数据的运营，对于我们来说作为基础设施的运维团队还有一个很大的方面就是怎么向前端业务去输送更多的弹药，我们的弹药就是我们的资源，服务器网络设备的交互，效率上怎么保证，这是自动化的流程平台，流程平台不光限于像大家平常公司里面都会用到一些流程的平台，后台有一套独立的服务器自动化操作的一个框架，然后我们的机器从采购下单以后，到最后交互业务，整个的一套流程自动化的，从机器到之前资产信息录入，上架之后自己走的装机和系统部署，以及监控部署等是自动化的流程，这里面需要网络运维同学参与主要异常的处理，非异常的可以自动交互业务的，这是平台的统计和流程的一些回调，这是给运维同学看到整个单子调用执行情况的改善，这边是统计。

D7XD4]IFNHG}7_CDGOAEHUD.png

资源交互的话，是我们刚才流程平台去做的一个效率的保证，然后作为基础设施运维的话，一个大头，另外一个大头就是成本，因为我们有数据中心，一些云计算包括基础设施大的部门来说，可能是公司最能花钱的部门，像IDC这种便利、动力环境，极其资源带宽和采购服务器是公司大头的开销，除了人力成本以后基本上就是这些。我们先说电力，其实每太服务器电力数据都是可以采集的，但是相对来说还是比较少有人把这些电力数据做简单的关联，位置关联就可以看到数据中心电力的使用情况的宏观数据，这是我们每天会，当然这个表比较简陋丑陋，后面的数据分析还是在做，这是简单给大家直观看一下我们的数据中心，可以细化数据中心每一个房间，可以看到服务器电力负载情况，我们和运营商签了多少电力，用了多少电力可以看出来，整个基础设施可以优化调整整个电力的负载改造，优化怎么更好降低成本，我们有这个这个机房，员工的机房，大家都了解，电力改进有推进难度，利用率比较低的，一个机构平均利用率有的一个房间只有4%的电力应用率，相对来说自己话语权相对较高的数据中心可以做到90%多，像润泽这种80%、90%没有问题的，再高有风险的，当你的业务一旦分散的，COP超屏有电力风险超电风险的。

这是主推基础设施给混合云提供的服务，基础设施来说一个用户买了一个混合云，我们想让用户掌握数据中心内部感知到我们能提供的一些数据，比如现场的一个实时画面，这是混合云用户已经购买使用的，可以知道所用的这些与现场的画面图我们从数据中心可以传输到用户混合云的控制端可以看得到，以及所处环境的温度和湿度的监控，这是简单的数据截图，这是混合云上面的一些基础设施的角度对用户提供的一些数据的支持，让他感受到，包括电力以及整个的温度环境和现场实时画面的一些改造。谢谢！

来源：CDA数据分析师峰会：大数据与云计算分会场

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据分析师行业峰会数据分析师行业中国数据分析师数据分析师中国数据

相关帖子

阅读权限+下载200次/日+产品折扣+免费数据库+免费广告+人才库+海量论坛币
教你如何在论坛赚取现金___项目交易发布流程

阅读权限+下载40次/日+产品折扣+免费数据库+海量论坛币

沙发

admin_kefu 发表于 2017-8-11 11:37:58

主持人：有没有向雷雨同学有疑问的问题？由于时间关系，再次把掌声送给我们的雷雨同学，我们坚信云化大势所趋，下去的时间里可以继续跟雷雨同学进行交流。接下来讨论的话题我们认为大数据时代每个企业拥有的数据都是有限的，这个话题就是如何去打破信息孤岛，然后下面请微软大中华区Dynamics产品总经理卢东明先生带来“打破信息孤岛，释放大数据洞察力”的演讲，欢迎。

卢东明：大家上午好！今天跟大家分享一下信息孤岛的问题，信息孤岛这个问题按理说大数据圈子里面的朋友们应该已经都听的很多，但是今天希望能够从一个新的角度跟大家分享一下新的时代里面，其实我们永远都会有各种各样的信息孤岛的问题存在。我本人以前一直是在大数据圈子里面做很多年，做数据库和数据仓库，包括以前在ICP做大数据架构部总监，华为做过手机AI产品经理。现在加入微软想和大家稍微聊几句微软，说微软公司应该说没有人不知道，但是可能很少有人了解现在的微软，我们心目当中想到，一提到微软大家会想到手上用的电脑系统和游戏的一些，但是不了解手机应用里面也是一个在国际上，包括中国市场上非常备受关注的一个厂商，今天从数据孤岛的角度两讲，跟大家分享一下微软企业应用，有什么可以和大家湖东，提供各种各样的想法和机会。

说到小岛，每个人心里有这样的梦想，周围的朋友有一大票海岛族的，想找一个沙滩，躺一个星期什么也不用做，发一个朋友圈特别享受，大家有没有这样的感受？小岛离我们又近又远，只能度假享受它，真正小岛生活的时候，很少有人喜欢小岛上面生活，小岛生活很不方便的，越美丽越无人的小岛生活越不能自己，所谓度假的感觉，有就一星期，一星期过完了以后还是回来享受，北京最喜欢吃的这些东西在哪儿，回广州要吃一个什么港式的早茶之类的，这些东西小岛都不会有，即梦幻又真实，IT环境有很多类似的感觉，我们在企业里面做ERP，管理整个企业的人财物的时候，自成体系的，在这个体系里面，其实人财物的情况，不管HR也好，财务也好，还是我们的无聊等等，管理都非常好，但是会发现整个的一个体系相对来说是自己独立的一个东西，和我们整个的企业真正运营的价值或者运营的顺畅度来说还缺一块，缺什么呢？类似CRM的东西，CRM做各种各样市场的营销和客户的关怀，客户的洞察等等各个方面这样的一些事情，客户的服务，这两个小岛我们看到越来越多在企业整个管理体系，ERP和CRM系统不仅应用层面隔离的，很多企业ERP跟一个厂商，CRM跟另外一个厂商的，互相之间是行为上分开的，操作的人员也是分开的，那么思维也是分开的，既然思维是分开的，所以企业整个的运营就会是有割裂的地方，像小岛一样，待的时间长了还想回到最舒服的家里面来。

那么我们再看一下，在企业运营里面经常会问到这样的一些问题，比如我们会问，上个月的采购量是多少，哪些用户采购了我们的产品，哪些产品的市场销量下滑了，下个月我们要做什么样的促销活动，以及上周哪些产品断货需要补充库存，企业里面运营的过程当中经常被问到，但是我们会发现这些问题其实要么来自于ERP系统，要么有些来自于CRM系统，但是真正对企业的运营和企业的发展，特别是一些创新，帮助是什么？这是一个回看的过程，我们现在的企业里面经常说，只是过去的东西记录下来，记录里面做各种各样的BI和数据分析，但是什么是分析和洞察，是不一样的，这两个词是有很多区分的。

所以企业的需求实际上如果以ERP和CRM两个领域来说，可以认为封闭在两个垂直的筒里面，数据烟筒或者数据孤岛，不管应用是存在孤岛，流程也是孤岛，数据当然我们玩数据人里面看，最根本的原因底层的数据是孤岛。即使我们过去的二十年里面大家不断的谈商务智能，很多企业为了打破信息孤岛会建企业数据仓库，目的就是为了把所谓各种各样孤岛的数据抽到另外一个实体里面，但是会发现连这个实体最后也又成为了一个新的孤岛，不直接去业务，业务还要通过这些企业应用级的系统去驱动。

我们就来看一下CRM和ERP这两个应用，在微软的眼里面，我们有这样的理念，我们有这样的实践，两款应用整合在一起，我们叫Dynamics365，这是微软整个企业应用的整体集合，Dynamics365，集合CRM和ERP软件的很多功能，比如说可以在里面做人财物的运营、零售，还有市场营销，还有现场服务，客户服务，项目自动化等等，这些跨CRM，跨ERP不同企业应用模块，微软Dynamics365有机被整合起来的，那么底层能够实现这样一个业务的整合的原因是什么？最主要的东西，是这样的东西，一会我们会讲，通用数据服务，我们做数据的人都明白，从入行第一年就听我的老前辈去讲，其实做数据库的人很有意思，做数据库的人不管进到哪个行业都能最快的程度了解行业的业务，因为他要从底层的数据看这个东西，只要他掌握了数据，就能很快了解业务到底干嘛的，能迅速的了解业务的本质和核心是干嘛的，这是数据的重要性。

一会会详细讲通用数据服务微软的整个企业应用架构里面重要性，以及对用户产生的独特的价值。当然微软很多业界前沿的技术，比如AI，比如机器人这样的技术，整个Dynamics365平台里面其实都可以用上。包括BI，有了大量底层的数据，如何里面去做数据的洞察和业务的洞察，微软有相应的技术平台里面呈现。

我们看一下通用数据服务，首先一点，通用数据服务的概念非常的新，新在什么地方呢？就是把各个组建的功能，刚才说数据是能够最清晰最根本的表现业务层的变化，所以把这些业务层的变化通过数据来呈现出来，我们看一下，在整个的通用数据服务里面，我们Dynamics365本身提供的数据有哪些？比如有发货的信息，项目管理的信息，售后支持的信息，服务请求的信息，销售预测，订单，销售线索，还有数据化营销，商机，以及运输等等，这些信息大家可以看到，有些来自于CRM，有些来自于ERP，但是Dynamics365的平台里面已经有机的串起来了，但是这还不够，通用数据服务还能够做到什么呢？可以和微软的云端办公软件结合，办公软件提供的除了大家熟悉的软件，比如一个wood等，能发文件，最初的功能云端还是呈现数据层，也就是举一些例子，各种各样红的LOGO，人员、日历、邮件、存储、会议、文档，还有各种各样的，整个Dynamics365通用数据服务里面有机的整合里面，举一些例子，有一些客户的问题通过一个邮件反映过来，这个邮件也许你会要定一个会议跟客户去开会，开会去讨论什么呢？去讨论一些问题，这个问题可能最后会落到某个项目的售后支持里面去，那也有可能由这次会议或者这个邮件会产生一些新的销售的线索或者销售的机会，这就把业务的支撑系统和前端的业务拓展和机会发现的系统，通过数据层有机的整合起来。

除了这两个微软实现的功能以外，我们还可以看到，开放给第三方的行业解决方案，就是在微软的Dynamics365平台上非常优秀的特质，除了微软提供的和其他的CRM和ERP厂商类似或者相同的这些基于企业应用的业务应用以外，还提供了开放平台给第三方的应用开发商。比如有些开发商其实在医疗行业非常在行，对民生非常了解，对政府的业务非常了解，那么可以在微软提供的Dynamics365业务和客户关系的这些数据模块，或者数据服务之上，再去开发他的政府、医疗、零售、物流，制造业的这些深一层的行业的解决方案。那么这些解决方案，同样可以通过我们的通用数据服务提供给外部。最后大家也知道微软收购了目前现在人的管理上，实际上最大的一个，而且几乎可以认为最真实的，几乎大家有时候在微信上还做做名字，QQ几乎不是真实的，如果敢把这个放上来，信息都是真实的，发表的言论和转发的东西都是非常专业的。所以微软这个维护上面加入各种各样的数据化营销，也就是说同样一个人发了邮件，两个人一个人发了邮件提不同的问题，如果有这个会知道背景，提这个问题的出发角度可以做很多的事情。

整个这张图，可以认为整个微软Dynamics365通用数据服务的全图，可以看到涉及的数据方方面面，由这些数据可以产生业务的需求也是方方面面，基本上可以认为覆盖了企业真正的企业应用的所有灵魂。

我们把他称之为一个变革的智能应用平台，这个智能应用平台基于通用数据服务，加之人工智能的能力，最后把数据的价值真正挖掘和放大出来。我们看一下，我们可以做很多网站分析、社交媒体，做很多IOT的事情，结合微软的Office365，包括外部的天气信息，包括以前老一代CRM和ERP的信息，以及更多的向第三方的应用开放商提供各种各样的服务和他们提供的信息，这是整个智能化的应用平台的核心的数据。

我们下面举一个这样的例子，michael hill美国连锁的珠宝店，大家知道珠宝店实际上我不知道在座的，女士们还是比较喜欢的，但是从一个男士的眼光里面看珠宝店虚的成分太多，有打两折的东西还看一看，我去珠宝店的时候，打半折不知道有多少水分，从每一行，每一个行业里面有自己经营的难度，所以不要光看人家卖一个珠宝很贵，有时候真的是两折、三折出去的，反过来经营方的角度来讲，如何让大家买你的这么一款高档的珠宝产品，实际上这里面也是，碰到我这么一个客户挺难缠的，就算给老婆买一个礼物什么之类的，估计到他们店也得且折磨半天。对他们来说存在这样的问题，整个企业有方方面面的事情要处理，怎么样做数字化营销，怎么样洞察客户的需求，包括怎么样利用地理信息和位置信息去向周边的客户及时的推送一些促销的信息，以及怎么把老客户在吸引回店里面，可能把新的产品推给客户。

其实michael hill只是零售行业里面一个典型的代表，我们看一下利用微软的Dynamics365，刚才看到很复杂的灵台里面，挑选了一些有机的模块，比如比如挑选的地理位置信息，挑选了用户兴趣偏好的分析信息，然后包括整个物流的运输情况，还有销售的历史，还有促销的信息，还有整个商品的信息，挑选了这些东西以后，把这些有机的整合起来，做到什么？基于客户的一些兴趣、偏好，然后基于位置服务，位置服务很有意思，很多在中国的商场现在可能有的是通过WIFI，也有通过一个小的设备放在商场不同的角落里面，然后是通过蓝牙的，用蓝牙走过，商场里面一进来告诉你打开蓝牙接收哪一个蓝牙帐号的推送，服务的话拿到各种各样的促销卷，店附近基于这个位置信息推给你当天促销的商品，还有个性化的服务和个性化的产品推荐，以及一些需求的预测。了解你老婆的生日是什么，比了解你的生日还重要。很多michael hill基于上层应用做数据开发，基于Dynamics365来做，做到的效果可以做到真正我们看刚才提到的信息孤岛，这样一个情况下被打破了，可视化的远程监控，先进的客户管理，可以为用户提供他们想要个性化的产品和服务，包括对产品的运维，比如有一些珠宝提前要做一些维护，那么我们自己用的时候并不那么了解的话，有一个细心的关怀，对客户来说体验非常好。还有利用数据驱动去做一些探索新的商机，根据客户不同的年龄参差，以及喜欢现在时髦的风潮，给他提供一些新的商机探索。

回到这一页，我们在信息孤岛时代经常会问这些问题，都是基于过去的历史信息，我们做的一些统计和分析的信息，但是实际上真正有价值的业务探索，应该是什么样的问题？应该是这样的，哪些是我们最重要的客户，他们对什么产品最感兴趣，这个在你的信息系统里面，在你的数据里面应该是没有的，应该是要通过各种各样的分析，各种各样的算法，不管是数据关联算法还是均类算法，人工智能，深度学习，深度挖掘都可以，想象空间非常大，数据分析师，数据科学家，用武之地在这里，如何找到关键决策人，找我没有用，找我太太更有用，这个月多少钱让你给我买礼物，找关键决策人你的销售很容易推动，否则的话，看了不买，没到关键日子不买。

还有如何通过组合销售和交叉销售达到业绩目标，有的人买一样想着干脆要不把圣诞节的礼物一次促销也买了，还有如何提供给这些客户做一些个性化的购买体验，还有下个月哪些商品在哪些门店安排库存，这一切东西都不一定现有的数据库或者业务的数据库里面直接找到，需要通过各种各样创新性的思维和这种分析才能够实现的一些业务驱动，业务洞察。微软的Dynamics365在全球，在评比当中已经排在CRM的第一象线，全球的客户非常多，而且目前云计算的领域里面是上升迅猛的一款产品，昨天是美国股市整个这一个季度的财报发布的高峰期的一天，我们也知道，云计算大有硅谷转向西雅图的趋势，中国大的公司，不知道美团有没有西雅图布局，我自己经历过的公司，不说哪个公司，已经在西雅图布局AI、大数据、云计算这样的，西雅图正在成为最大的云计算的IT中心，那么西雅图另外一个巨头昨天发布的财报我们也知道是谁，跟分析师的分析预期差了一分钱，股票掉了32块钱，当然也不是很多，对一千块的股票也不是很多。我必须要说一下，以前美国工作七、八年的时间都是华尔街工作，华尔街不能够允许一分钱的误差的，为什么？一个成熟的上市公司，那么多人搞财务，那么多人搞报表，而且这一个季度里面有N次和分析师交流的机会，你有任何信号早就应该发出来，不可能到最后一天突然发现不对，还是差一分钱，一分钱最后多少亿股，实际上差很多亿，所以这个不可能接受的，所以为什么一下这个消息出来以后，本来是前一天股票涨到1080，最后跌到一千块，上下浮动8%，对一家IT公司来说，波动还是相当大的。

那么同样的类比，微软的云计算在过去的一年里面，云的业务增长了93%，是全球云业务增长最快的一家大型公司，当然小公司翻倍的也有，当然这么大的公司，微软在作为70年代、80年代、90年代、2000年，过去40多年的IT巨头来说还能够以如此迅猛的速度在增长，实际上是非常非常罕见的，我们可以看一看80年代，90年代，2000年和微软平起平坐的大公司处境都是怎么样的，我们看到IBM，HB衰落一塌糊涂，还有私有化的戴尔，还有缓步的增长，目前微软在各个方面，不光是云的服务，不光是我们的设备，也不光我们的现代化办公的体系里面，包括业务的各行各业的业务应用，微软都是扮演越来越重要，而且是跨时代的一些领导力。

最后跟大家说一下，我现在代表微软Dynamics产品事业部，其实一方面支持中国的客户在接受和转向向微软这样先进的企业用户品牌，同时也在重点扶持我们的合作伙伴发挥他们的想象力，能够各行各业为我们的客户提供更多的企业应用，也希望大家能够在不同的平台上和我们交流。谢谢大家。

主持人：我们知道好的产品会说话，我们非常感谢卢东明大咖带来微软Dynamics产品，我们希望以后能在中国也攻城略地，谢谢大咖的分享。接下来的话题是关于数据安全的，我们知道现在可以听到很多的事，美国一段时间就会听到这家公司用户信息被泄露，另外一家公司被掏空了，还有最近一个事，永恒之蓝这个病毒在全球肆虐一百多个国家，还使用了一个很高科技的东西，使用比特币勒索，应了一句话，就怕流氓有文化，这么一句古话，既然数据安全是这么重要，我们接下来请听UCloud战略总监给大家带来安全屋与数据智能时代的分享，大家欢迎。

司先生：非常高兴给大家带来一个新产品UCloud的安全屋，微软讲的很好，企业内部打通的数据孤岛的问题，其实我今天讲的，是从安全出发，但最终的应用场景并不是安全，也是为了打破数据孤岛，不是企业内部的孤岛，而是企业之间的数据孤岛。之前先讲一下我们公司，非常容幸上午几个都是做云计划的公司，我们公司UCloud，是目前中国排名前三的公司之一，云计算排名前三的公司之一，目前全球19个数据中心，12个国内，7个国外，还有一些CBA，还有专线等等，完成全球化的布局，欧洲到美国，到东南亚都有一些，我们提供的产品，包括两部分，第一部分是一些基础的产品，包括主机和存储、网络等等，各种各样的一些产品。右边的是一些解决方案，包括整个金融的混合云、私有云等等，以及我们最近推出的人工智能大数据等一系列的产品，我们对整个云的理解，CBA，整个的布局，之前更多做云的服务，现在开始做大数据和AI的这些产品和服务。我们知道有三个关键因素，第一个是数据，第二个是算法，第三个是计算资源。目前我们的算法蓬勃发展，计算资源问题也不大，但是数据这一块面临非常大的挑战，大家普遍缺乏数据，或者数据被大公司BAT等等所垄断。

整个数据这么几个步骤，收集、清洗、标注到最后的训练，每个步骤有一些痛点，我们会推出我们新的产品，具体有什么痛点呢？数据符合这四个特征比较好的数据，足够的大，足够的多，足够的及时，最新的数据，不是过时的数据，最后还要比较稀有才好，目前这些数据并没有很好的被流通起来，而是被一些大公司所垄断，很多人获取不到的，为什么流通不起来？有两个原因，第一个是用户本身不愿意去分享，不愿意去共享，因为涉及到一些隐私的问题，第二个是政策也不允许倒卖个人的信息，目前国家立法是非常的严格，所以这一块互换着我们必须把这个市场正规化，不然以前的路子一直走下去死路一条。

所以说我们推出了UCloud安全屋一款产品，这一款产品为什么叫安全屋呢？因为像一个房子一样，像一个屋子一样，提供一个平台，其实是一个云计算的平台，大家把数据放在里面做一些交叉的分析和计算，但最终是让你把结果拿走，不是数据本身拿走，所以是把数据所有权和使用权做了一个分离，你最终拥有的是数据的使用权而不是所有权，整合后周边的技术有很多，比如我们最开始一些安全的技术，保安站在门口，数据的进进出出有审核，权限管理的机制在里面，安全的机制，防止黑客盗走等等之类的，还有一些密钥管理等等。大家看四个角有一些摄象头，抵御的区块链，防止优化的平台方使用这些数据，或者是有一些假设安全隐患最后溯源追溯的，所以区块链做很多审计的工作，这里面是一个计算和存储，整个计算要封闭起来，存储也要封闭起来，依托于整个UCloud云的技术，包括主机和GPU还有存储的一些功能等等。

这是产品的架构图，底层还是云的几大块，计算存储还有网络，中间的第二层的技术层，主要大数据的算法，区块链，还有一些堡垒的技术，往上权限的管理和结构的审核，还有应用场景，包括用在交叉营销，政务应用，AI训练还有征信各个领域，最后实现所有权不变的情况下，实现数据使用权的核心流通。刚才讲一大堆概念，接下来讲一些应用场景和客户案例，目前这么四大应用场景，人工智能，产业链数据共享，政务，以及交叉营销。

我们看一下人工智能，最大的特点就是怎么获取这些数据，很多数据医院、金融机构，安防，电信的手上，数据使用者想获取这些数据获取不到，两者使用怎么有机结合起来，我们数据放在安全屋里面，整个数据加密的存储在里面的，最终计算去使用，AI公司算法传到安全屋里面来，安全屋里面做训练，安全屋各种GPU和CPU各种资源都是有的，训练完了两种选择，一种模型下载下去，但并不需要数据源本身，需要模型就好了，另外一种不需要模型下载就部署安全屋里面，安全屋就是云平台，下载不需要就是在公共云进行服务，通过这种方式实现即能获取数据，但同时这个数据又没有被泄露，目前的情况，以前有一些把数据给到AI公司，AI公司假设一百块钱从电信买的一些数据，99块钱卖给第二家公司，第二家公司98块钱卖给第三家公司，这些倒卖的情况被避免了整个数据也流通起来，这是AI的场景。

第二个场景产业链上下游的打通，中国包括一些制造业和金融行业，很多时候一个业务是跟上下游是紧密相关的，特别是制造业，供应链，后面的销手端，很多时候需要数据打通的，整个业务更加的柔性和敏捷，目前大家都是觉得数据是我的生命线，然后这个是不能给到对方的，哪怕我们是一个上下游合作的关系，有时候也很敏感，所以说通过安全屋放在第三方的平台上面，把你所要的数据放到安全屋里面，做一些计算，设计一些逻辑等等，假设库存有一些紧张，这边可能整个调货等等，到你那边输送一些货的速度降慢一点，不是点对点，是一个面，是有很多产业链的公司都在这个里面，做一个动态的调配，但是这些前提都是大家把数据放在一个地方统一的做一些分析，点对点的是无法实现这么一个高度复杂的一套系统，所以这是一个产业链上下游，应用各种各样的行业里面都可以。

第三个是政府，政府我们也知道，就是在美国、英国，整个政府的数据开放已经非常好，中国处于非常原始的阶段，目前政府主要两大诉求，第一大诉求是解决政府各部门之间的数据孤岛问题，比如这边是财政，那边是海关，或者跟公安他们之间的数据能不能打通，这是第一个层次。第二个层次怎么政府的数据用于企业和高校，企业和高校应用这些数据，我们常说中国最有价值的数据不在BAT，70%的数据在政府手上，比BAT更加直接有价值，目前这一块怎么去做？我们也是这么一套思路，各个部门把这些数据放到安全屋里面，然后大家各个部门之间给打通，但其实部门之间并没有拥有对方的数据，只是获取了一个对方数据的计算结果，然后如果是给到一些外部企业的话，同样也是一样的一些道理，可以让企业到你的平台里面来做一些计算和分析，把结果给拿走，并不把数据源本身拿走，所有的数据在进入安全屋一面要脱敏，更重要基于私有云的实现方式，政府大家都知道，不愿意上公有云的，至少现阶段不太愿意上，要基于私有云的解决方案实现。

阅读权限+下载200次/日+产品折扣+免费数据库+免费广告+人才库+海量论坛币
教你如何在论坛赚取现金___项目交易发布流程

阅读权限+下载40次/日+产品折扣+免费数据库+海量论坛币

藤椅

admin_kefu 发表于 2017-8-11 11:38:27

最后一个应用场景，交叉营销，也是我们认为应该是市场空间最大的一个场景，现在你去BAT投放广告，我以前也是腾讯出来，一个CPA高到几千块钱，这个成本非常高的，但是其实你的数据很多时候可以去变现的，特别交叉营销，比如我做化妆品你是做酒店，我们都是高端化妆品和高端的酒店，客户群体差不多，为什么不能一些数据共享起来做一些互相拉新的一些事情呢，所以这个里面有很多目标人群是类似的，但是彼此之间不是竞争关系的公司，他们是可以做很多交叉营销，把数据放到一起来做一些交叉的分析，无论是拉新也好，无论是丰富各自的用户画像数据也好，有很大的应用空间，目前整个营销的费用都是非常高，所以这种方式可以帮你降低你的营销成本。

以上讲的是四大场景，现在我来每个场景选一些代表性的案例给大家分享一下，第一个案例是我们上海联通的案例，这个案例大家提到电信运营商的数据非常敏感的，上海联通他们要做一个算法招募的工作，他们自己有一些算法团队，但是肯定不足的，需要从外界吸引一些更有力的算法为他们提供服务，但是以往的方式是让那些算法公司到联通里面，联通的服务器做挖掘分析，看谁做的好，成本非常高的，整个效率非常低的，今年尝试一个新的模式，他们通过比赛，比赛会拿一些上海的一部分运营商的数据，当然是脱敏的数据放到UCloud的安全屋云上面，这些数据本身也是存储在这个地方的，这边有很多参赛队伍，目前有五百支参赛队伍，有一些大数据公司，还有个人组团，有一些高校等，但是无所谓，这些人这边做参赛，每个人都会申请一台或者几台云主机做数据分析，然后分析完了会去比赛，看谁的分析结果更加好高效一些，上海联通高效的算法吸纳进来采购进来，好的团队直接挖过来，或者给收购也可以。

但是这样解决一个什么样的问题呢？首先这些数据不能够被这些参赛队伍下载的，只能在安全屋里面做这些数据的挖掘分析等等，甚至连拷贝都杜绝了，一些安全技术能够防止，然后记录所有的操作和行为。整个比赛7月15号启动的，到现在举行将近半个月的时间，所以通过这种方式的话，就实现一种非常高效的算法招募的应用场景。上海联通后续有更深入的合作，比如广告领域，现在本来很多人直接去联通买数据，但是以后其实可以直接在安全屋里面，进行数据挖掘分析，结果拿走并不把数据本身拿走，对交叉营销有很大的促进作用。

第二个案例AI的场景，华院数据是上海本土大数据公司，最近转型做AI方向，医疗AI非常重的方向，想做胃癌切片的AI产品，但是本身没有数据，我们后来通过上海莱览数据标准公司，能拿到一些数据，最终提供了几千张的胃癌全片的病理切片的数据，放到UCloud安全屋里面，并且调用UCloud的GPU进行训练，最后把这个模型给拿走了，这些数据本身用完销毁掉，数据得到很好的保护也没有泄露用户的隐私也触犯一些国家法律的红线，对华院来说如愿以偿拿到这些模型产品。

这些金融产品，每个人有白名单和黑名单，但是每个人的名单一部分而已，如果大家把数据白名单都汇集在一起，这样每个人的名单可以更长一点的，但是不能告诉对方到底什么样的名单，我们也通过安全屋的机制，目前首先是在一些偏互联网金融的机构达成了一些合作，银行这一块确实比较难，确实对这种数据公司非常敏感的一种行为，最终实现整个行业1+1大于2的效果，白名单共享出来，共享结果，并不共享名单本身。

然后这边是一个政府的案例，上海市信息中心，是一个事业单位，智能把所有上海委办局的数据收集起来，然后共享出去，他们过去几年基本上搜集的有上海各种委办局的数据，但是共享这一块做的还是非常不足的，所以说我们就给他提供了解决方案，要实现两个功能，第一个上海市各个部门的数据打通，实现一个政务的企业协同，第二要政府数据对外共享，第一步主要对一些底层的比如说高校，比如说银行偏国企做开放，并没有做到给互联网公司开放，这个东西对政府来说还是有点早。我们基于私有云的方案帮他做一个很好的权限管理的工作，因为这个东西比如说有99个委办局用，每个局很多人，处长、局长和秘书权限不一样，有很多功能不一样，所以结果审核，有的拿到的结果是一个报告，或者一些相对偏结构化的一些数据，所以这个里面就是要通过人机结合的方式，如果是那种比较结构化的算法可以做一个判断，如果是一些那种以往的通过算法没有办法做，必须有一些人的东西在里面做一些审核和评判。

这个案例就是一个交叉营销的案例，雅诗兰黛和喜达屋，一个高端酒店，一个高端化妆品，雅诗兰黛推的活动，雅诗兰黛会员自动成为喜达屋的会员，电一个允许成为一个会员，不用填姓名手机号等等，雅诗兰黛这边直接同步过去就可以，这种实现拉新的作用，这样的活动一个A几十块钱或者上百块钱，通过这种方式不需花一分钱，除了向我们公司付一些服务费，那个钱相对整个营销来说很小的一笔钱。

所以说以上就是安全屋的一些案例，我们的整个规划是要打造一个平台，打造一个可以进行各种大数据交易的平台，大家可能目前一听到大数据交易可能想到都是中国贵阳大数据交易中心，是一种偏政府主导的方式，那种门槛也很高，需要交很多会员的费用等等，抽成要达到40%等等之类的，这种方式概念非常好的，说明在以后的时代数据交易和数据流通是必须的产品，但是我们作为一家商业公司，我们更多会从商业的逻辑角度出发，做一些更加符合大家需求的产品，以后我们的目标打造成中国大数据交易流通的平台。

另外是AI asaService，AI时代数据是关键的因素，我们有一些AI的产品，底层资源的这些GPU等这些基本上每个云厂商都会有，还有一些在线训练部署的一些产品，也是有的，这些就是一些偏PASS（音）产品，偏SAAS产品我们也在合作做这样的产品，最终希望这个产品做好，大家有什么疑问或者需求也可以随时跟我们公司联系，谢谢大家。

主持人：再次把掌声送给他，安全屋产品带来很精彩的分享，使我们对大数据安全有很深的认识。

发言：刚刚听到大咖老师干货分享，我有一个问题，也是大家关注的问题，CDA的干货在哪里，领导说我没准备，没准备没关系，但是我们准备了，我们把二维码先放出来，很随身的，顺便告诉大家一下，我们准备了十份贴心的小礼品，群里会有一个特别的方式来选出十个人。我们随时可以带着干货，是不是有红包，先来一个红包，刚好我们有十份贴心的礼品，先来十份红包出来，抢到红包的朋友，中午会后11点多来找我领一下你的小奖品。我还听过一句话，中国有一句说好事成双，我们这么多人，要不要来一个阳光普照奖，今天没有这个奖我就不下去了。我在CDA负责品牌策划和活动运营，大家有需要也可以来群里找我微信。

主持人：有道云很专业在我这做了很多记录，如果大家对有道云感兴趣请大家关注一下有道云的二维码，有大会演讲的速记稿。下面有请代老师演讲。

代立冬：我为大家介绍一下大数据下的企业数据仓库建设，我叫代立冬，是易观大数据平台的负责人，我做了大概八年的大数据平台的建设和优化，以及数据仓库的建设，然后曾在多个数据中心担任负责人，我是熟悉零售和统计分析类的业务。接下来给大家介绍一下企业数据仓库建设有哪些，为什么要建数据仓库。

其实我们要避免底层业务的变动对上层需求的影响，然后来自需求从头到尾再重新去处理数据，然后我们有很多像分析师这样的人员，其实是不关注我们底层的业务逻辑的，其实我们是要把数据结构更加清晰简单，一句话就是让我们的业务人员用起来非常的简单，我们是要把数据来源和去向可追溯，数据仓储里面有一个很重要的因素，就是我们会建构数据的血缘关系，后面会有分享，下面会提到很重要的问题，就是重复开发的工作量，可能会不同的团队过来到数仓里面，拿到的原始数据可能就想自己做一套，自己从头来一遍做一下收仓过程，这样造成很大资源的浪费，如何做到上述的几点，通常的方法根据业务去建立一套合理的数据分层的模型。

如图，这是我们数据仓库的整体架构，他从下到上依次数据接入进来之后，我们会把数据先存到我们的这个里面来，然后从下往上，STG到ODS，然后DWD层，有一个层级的关系，右边是从数据过来之后，可能会做一些DTO方面的数据，接下来会介绍每一层的是如何去做的。

这是数据仓库的分层，如何做分层？比如原数据层，数据操作层，数据明晰层，然后数据汇总层，然后有集市，还有公共维度表层，还有临时的一些需求里面我们会到，临时转化，ETL转化当中用到临时的这一层。

这个是说数据仓库的STG层，主要原数据层，也有伙伴叫它接口、缓冲，无论叫什么名字都是用来表示原始数据在数据平台的落地，然后是原始数据层，数据接收端接收数据，建议这一层保留，STG端采集上来的数据保持原样，方便跟STG端对输，数据有没有传上来，有没有少，这是这一层，数据结构是存储现在推荐使用裂层的数据格式，宽表的数据处理，不用扫描所有的数据，这是通用的parquet，存储周期保留全部的数据，大家知道大数据的时代，每一家的数据非常庞大的，可能自己业务的状况去保留，到底保留多少天的，比方保留一年的数据，然后后面加工过不需要保留原始层，这个是一个业务情况。这一层的规范，层次，比如STG这个主题，我们讲什么业务的，表的内容，还有分表的规则，后面会举一个例子。

ODS层指的数据操作层，这个是数据结构，数据之间的逻辑关系，我们是希望原始数据层保持一致，基本上保持一致，原数据装入这一层我们需要进行一些数据的处理或者去掉没用的数据，这一块做一些，等于是准备，数据结构是比原始数据层基本保持一致就行了，ODS层我们默认保留近30天的数据，然后他的表的规范层次、主题、表内容，分表的规则。

DWD层，说到DWD层，这个指的数据明细层，主要用于原系统数据在平台当中永久存储，DWS层和DM层无法覆盖的需求，用户同化用到这样的业务需求，数据模型不建议开给不懂技术的业务人员直接使用。解决数据质量和数据的完整度的问题，比如会员信息来自于不同的表，我们需要这一层有一些会员的数据可能还不够完整，我们需要在这一层做一些屏蔽，会员信息补充完整，数据结构需要与原系统大体保持一致，这一层保持历史至今所有的数据。这一层的命名规范，刚才已经说到，是一致的，这一层DWD层，用户描述是销售，比如按日表，这样的销售表，日表通常按天做一个分区的，这一块是我们做DWD层的。跟很多公司交流的过程当中ODS层和DWD层放在一起的，我觉得根据自己公司的业务需要，需要的话可以放在一起，也有一些为了减少数据容余，多了一层，有数据容余，大体一样的。

说到数据仓库最重要的一层，跟分析很相关的这一层，我们的业务人员可能会除了技术以外，业务人员、分析师，这些可能会用到较多的一层，DWS层，指的数据汇总层，数据汇总层，其实是主要包含两类的表，一类是细粒度宽表，一类粗粒度的汇总表，商场销售举例，订单、会员、商品、店铺，实体的细粒度的宽表，还有微度融合的，离不开人货场三个维度，比如有会员日消费等，店铺商场不同的维度去做的一个汇总表。这一层是对外开放的，我们用于支撑绝大部分的业务需求，汇总层简化原系统的复杂业务逻辑和质量的问题，这一层是业务是结构非技术人员看起来也是会非常的简单，已经把底层那一些复杂的，比如多表之间的关联关系，都已经屏蔽掉了，我们在上一层其实已经做的操作，这一层非技术人员看起来就会比较容易接受，然后我们希望DWS层满足80%的数据计算，通过这个里面把80%的业务能给覆盖住，然后不需要再去做一些额外的加工，然后这一块DWS层，数据结构主要是以业务，比如宽表这一块业务实体进行展开，然后将与业务有关的相关字段和属性进行关联，这是宽表，做一些预处理和预计算，进行拉伸宽表，还有汇总表，会员的汇总，销售的汇总，商场销售的汇总，维度组合形成的汇总表，存储周期通常情况需要保留全部的数据，因为牵扯到后面，比如我们算重合度的时候，比如算两个，我们这个公司的业务为例，比如要算两个APP的重合度，那这样的话，就需要可能过一段时间改编一个，算法有改进升级了，需要把握这一层，进行一个数据的刷新，我们就需要把这一层历史的数据都给做一次，比如有一些字段的数据需要做一些修改，这样的话我们还是希望保留历史至今全部的数据。命名规范在于所有的数据汇总层的表放到DWS层，那其实每一层的数据仓库都建了一个关于跟自己相关的库，比如说ODS层，数据库名字叫ODS，然后每一层下面很多表，DWS的汇总表我们就加了sum，大家很清楚一眼看出来这个表干什么用的。

下面对DWS矩了一个例子，比如我们拿到会员日消费的汇总表，这里截取了这么多，实际上有一百多个算法，比如说消费汇总关于大概具有一百多个，比如说从DWS层，或者ODS层拿上一批数据，这里会用到，比如我们会对目标表做一个，其实这个表格做了规范的整理，以后的比如后进来的员工拿到了这个表格就知道我们的数据怎么加工的，比如每一个字段从哪一层过来的，是怎么进行加工逻辑，比如说目标字段的英文名，数据类型，比如说数据的类别，然后他的主题，按照什么组建或者分区，然后是从哪个源过来的，上一层，比如哪一层的，比如这一批订单过来的，还有一些会员过来的，使用原表哪一个字段，或者哪一些字段进行加工，后面还会写加工逻辑，比如后面还会写计算方法，我们把这个表格整理的越详细的话，我们对后续的接触到这一层的人就会非常的清晰，拿到这个能知道我们这一层的表是按什么的，能做一个比如说我们从维度来看，比如我们分了年级、月、周，还有日，这是DWS层，一百个字段，我们希望建的一些宽表，适应现在技术的发展，单表的数据量非常庞大，我们尽量避免做一些数据表之间的关联，这些是我们希望能避免的，这也是各个公司基本上都在围绕这种方法做的事情。

数据仓库集市层，有一些伙伴也叫APP层，这一层说的意思都一样，就是讲数据的应用集市层用于DM的分析，包括推荐的营销，标签、数据挖掘和模型，其他的数据服务，这一层对外开放的，为所有的数据产品数据出口提供数据支持，比如应用，建设局部的数据仓库，因为他这个，DM层，其实只关心自己的数据，APP层每一个公司，业务线负责具体的业务不一样，负责的产品也不一样，上一层在DWS层已经做了整个公司的建设，下面各个业务团队围绕自己关心的数据做的一层，比如不会全盘考虑企业整体的数据架构和应用，每个应用都有自己的这一层，自己的APP层或者DW层，数据仓库可以建设，这一层按照业务，整体的还是围绕业务来的，然后比如按照主题和分主题构件的，面向的都是公司的一个产品研发，任何一款产品有一帮人做这个事情，比如该层次的数据结构会开放给业务人员使用，包括比较流行做用户画像和画像类的挖掘，业务分析很简单的统计数据，把结构数据拿上来做分析，这一层其实都是应用到新型的，不知道有多少同学了解过数据仓库工具箱这本书，非常经典的，适合现在大数据大规模的情况下用到的一本书，里面介绍维度建模，这里现在通用的是新型表，实时表加维表这样的数据结构，这样的存储周期，比如说按需存储，因为每条业务线不一样，一般希望能保留历史至今所有数据，这一层是我们的数据仓库里面用到集市，集市也是APP这一层。这里面有数据仓库用到的一些比如通用的比如公共维表的信息，国家代码和城市代码，这些码表，地理位置信息存在这个表里面，对外开放用于DWD或者DWS，应用层的，数据之间的关联，这里面大部分维表，国家ID等字段为主键，按需存储，DIM表很少存一些城市信息这些，码表。我们所有的维度表，放在DIM层下面，DIM我们叫时间的维表，按年有时间维，其实我们围绕一个用户主题会形成很多维，围绕这个业务进行，这个是公司业务去做的。

下面讲的是数据仓库的处理流程，比如说层与层之间的流转就是一个ETL的过程，ETL过程三个步骤，三个英文字母的缩写，就是数据的流动这么一个过程，抽取，转换和装载，不同的数据层流到目标的数据层，我们看一下数据模型这几层ETL的说明，ETL记录数据哪里来到哪里去对应操作，原数据层到了ODS层，这个比如说处理方式，基本上，因为现在的大部分离线业务去做的，比如Hlve外部表的形式加载源数据到ODS层，实体到实体属性的类型，加工逻辑和频率主要初始全量到日常增量，考虑数据清洗和异常字段处理，字段命名的规定化，能找到很多表，比如如何命名，强大的公司已经做了，已经把这些如何规范化自己的字段都做了说明。然后做一些统一，比如EPL第一层ODS到DWS，按照业务关注点，确认实体之间的关系，ODS的实体为DWS层的实体，也是初始全量，日常做增量。DWD到DWS处理方式，根据数据挖掘，数据分析团队等，这一层其实我们需要去了解到一些具体的业务，我们跟团队实际需求去做，通用性的宽表，汇总表和维表，这一层需要和业务团队共建，考虑实际的业务情况，比如提出一些需求来，我们希望能把这些需求转化成在DWS层做一个，目标很简单，就是满足80%的业务需求，然后这部分其实在做了DWS层之后，以后基本上简单指标层的一些处理，比如APP里面用的指标进行简单的加工和处理，这一层可能还会需要用到merge，会有一些操作，DWS层到DM层，完全根据自己团队的业务需求去进行进一步的加工或者是复杂的一些处理，因为每个业务线的数据要处理是不一样的，下面做这样一些规划，层与层需要用到ETL转换规则，这是大体上做了一些整体，还有很多细节。

接下来其实离不开调度，调度是一个什么样的概念呢？其实我们调度，比如说有一些好多任务需要依赖于一个数据文件，有些需要依赖于一些别的流程，每一个依赖形成邮箱图，管理邮箱图我们称之为调度，比如调度这个里面，这是易观大数据调度系统，我们目前看了很多调度，其实用的这些开源产品或多或少需要你根据自己公司的业务做一些改进，比如说二次开发，这些其实都会带来一些，比如我们需要维护二次开发，因为我们团队有一些，一开始工作就是做调度的，所以我们大数据调度这一块，大部分通用的，一部分自己公司有的业务，比如能实现可视化的任务配制和工作流的配制，执行的结果和跟踪，还有一些上面权限的管理，比如说从数据采集到大数据系统这里面，有一些离线的计算或者在线的，我们公司，因为大数据我们公司的数据采集可能就是大家的手机端，比如客户合作伙伴签署了SDK，会收集到很多用户的数据，比如拿到的数据会在我们的数据系统里面进行离线的计算，比如有一些像设备的基本信息，比如说APP的运行信息，APP的安装下载，还有用户识别的信息，还有比如行为信息，用户的操作偏好，这些是在这个基础之上，由我们的易观千帆移动分析的产品，做第三方的，可以做APP之间的对比分析，或者自己的APP运行情况的一个分析，这里面易观万像是我们做的关于用户画像的产品。

阅读权限+下载200次/日+产品折扣+免费数据库+免费广告+人才库+海量论坛币
教你如何在论坛赚取现金___项目交易发布流程

阅读权限+下载40次/日+产品折扣+免费数据库+海量论坛币

板凳

admin_kefu 发表于 2017-8-11 11:38:39

过了一年几百上千个表，没有系统管理你的表非常混乱，现在其实有一种状况，开发人员自己过了一年之后不知道自己这个表干嘛的，很难描述出来当时做了什么，当时只是为了满足当时的业务需求然后做的一些，比方临时表，这些其实我们需要有一些从头至尾的一个，比如血缘关系的追踪，上面应该有一个源数据的管理，描述数据的信息，用来表述这个表存储位置和历史位置，资源查找和文件记录等功能，库、表、数据存储位置和权限等信息，如果比较熟，用了几张表，不太细说了，可以从几张表进行提取，我们可以形成源数据的管理。

血缘关系的管理，Atlas这个项目，现在做的，我们也用于生产环境里面，为了防止数据之间不够清晰，能记录每个数据的来源，每一个都是一张表，记录数据从哪来的到哪去，这是一个非常，我觉得这个项目对数仓非常有帮助的一款开源产品，大家可以关注数仓这个方向上，可以做一些，其实非常简单，这一块血缘关系管理的。

其实一个很重要，不同的人有不同权，这里面牵扯到权限，权限管理包括认证和授权，因为大家对自己的数据，不仅每个公司对自己的数据越来越重视，不同的开发人员应该有不同的权限，有些因为现在看到的很多公司的数据泄露，另外结合的这种，有内鬼这种的，我们需要做一个什么样的操作呢？比如严格权限的管控，然后这样的话，比如说像我们调研的时候，对比之后，我们需要，先说一下Hortororks收购了XA公司，通过最终化权限管理，有一个配制界面去做，为用户主要提供文件文件夹，表上列的认证，对很多组建都提供权限管控，我认为是非常轻量级的产品，很容易看懂写的代码，如果大家稍微对安全意识比较模糊，其实还是有，我当时因为我们公司对数据安全非常的重视，这一块看了一些代码。Ronger提供审计的工作，比如你在数仓上做了什么样的操作都可以提供一个，都会记录下来，通过插件去开发的，比如很容易查到这个人上面干了什么事，最近接触到TMS，支持对数据的加密，加密是我们提到数据安全其实是另外一个范畴，数据安全，说起来话也挺长，今天不在此展开了。

然后是网关，这里面其实在讲到数据治理，网关对我们应用的是Knox，里面也是一个开源的，我们公司提倡开源，很多产品是开源，Knox拓展了Hadoop安全边界，通过api实现集群的访问，别的兄弟公司实现访问，通常集群不对外的，集群都是放在内网里面的，如果有一些非常好的合作关系的话，我们通常通过API让他们能访问到我们的集群相关资源，但是我们肯定严格管控权限的，比如做数据源或者授权和审计，这些支持的，目前支持Hive、HBaase等，对我们集群做了代理，上来之前通过代理，如果验证你有没有权限，有权限就可以进来，没权限就挡在门外。然后还提供了审计的功能。

下面是我们公司数据平台整体的架构，这里面其实有数据源，还有接入层，接入的团队负责，上面有离线，离线里面有数仓，服务层提供各种各样的接口，上面各个应用，现在还在做的多维度分析，资源的管控和数据治理，其实数据治理整个体系里面占很大的比例，我们要重视数据治理，尤其当你的数据上了规模之后，接下来数仓建设价值，一开始就说了为什么建立数仓，数仓存在肯定是有价值的。

介绍一下易观数据现状，累计的装机量20多亿，APP的数量205万，这是目前，现在也是在增加的过程中，比如我们覆盖了279个领域，比如说我们现在的合作伙伴110个，大数据集群现在是5.8个PD，但是新搭了一套集群，因为原来的集群一些机器原因，比这个还大一些，日处理成立242亿，日活4.8亿，数据到了一定规模建数据仓库是一个非常必要的，因为我们一开始团队里有一部分小伙伴有数仓的艺术，建设的过程当中省很多事。

这是我的博客，这是我的QQ，这是我的微信，大家数仓建设当中遇到一些问题或者可以讨论的一块去分享自己的建设，数仓这一块的经验，因为每一家公司建设都会有自己的业务，建设不大一样，整体基本上一样的。还有宣传一下我们的OLAP大赛，数仓离线处理，基本上大部分公司做了离线处理，现在数仓由做实时分析，因为很多客户会要求你做实时的多维度分析的这么一个方向，有这样的一个趋势，其实易观这个做实时多维度分析的大赛，其实强化漏斗转化为背景，技术挑战非常高，跟很多大公司做探讨交流，发现一些大公司在做这一块实时多维度分析很多公司绕开了这一块，围绕这个我们希望大家参与进来，因为这一块基本上是现在的刚需，客户是需要这个的，但是我们因为技术上的一些难度，正在向这个方面努力。

主持人：非常感谢代总。下面有请中国电信北京研究院灯塔大数据王总，为大家演说中国电信灯塔大数据行业应用实践，大家欢迎！

王仿坤：各位在场的听众大家好，我是来自中国电信北京研究院灯塔大数据的王仿坤，接下来很容幸代表电信给大家分享一下我们在大数据领域的一些行业应用实践。我今天内容比较简短，也是最后一个嘉宾，所以不耽误大家吃饭。

我这边讲三个部分，前两个部门还是罗嗦一下最新大数据行业发展趋势，也讲讲我代表运营商对大数据自身定位思考，最后核心部分介绍灯塔大数据的应用实践，各个领域行业落地的一些案例和经验。

首先大数据行业发展趋势这部分，我总结三句话，第一是行业逐步稳定，第二日剧日趋完善，第三大数据平台的新要素与趋势。每个行业比较固定的模型稳定发展，包括萌芽、过热、幻灭、复兴、发展五个阶段，麦肯锡之后已经走过六个年头，11、12、13学术研究行业困顿期，13、14年资本市场开始涌动，企业投资活跃，进行跑马圈地，这个大数据概念热潮，但是泡沫居多，我们在内蒙古和贵州新建了两个云计算资源池，都是世界范围内排在前列的。15年国家正式发布促进大数据发展的行动方向，主席也视察了贵州园区，大数据行业进入国家战略高层试点，中国电信对外发布天翼大数据品牌，灯塔开始进行战略落地，我们作为中国电信北京研究院这么一个偏技术创新和研发的这么一个单位的团队，我们主要的定位还是做技术平台技术创新，技术成果输送整个电信体系打造各种产品解决方案。

16年十三五规划中，有关云计算大数据区块链物联网这一些或新或旧的概念写入整体规划当中，并且描述出了具体的发展规划路径，电信方面政府大数据项目广泛落地，大家了解到这个期间互联网公司包括腾讯、阿里，他们的云也开始政府落地，很多低价中标。我们云公司也开放大数据平台，灯塔大数据的产品也进入了规模复制阶段，那么最后一个阶段，我统计为其实政府大力扶持应用广泛落地。整个行业泡沫逐渐挤掉，拼的是实力和肌肉，现在站在行业的这个时期来到2017年。

在技术体系阶段，我也做一个简单的总结，大数据相关技术应该从03年开始提出了，最开始提出的第一个文件，涉及有大数据含义的文件系统，那么在04年的时候，第一个能够处理海量数据级的这么一个框架，也大家熟知的两个诞生了，为后面的SBS打下比较好的基础。往后比较繁荣，06年到15年，近十年间整个技术体系，开源时期达到异常繁荣的阶段，08年的时候，Hbase发布，开源社区三架马车正式形成，为其他提供良好的基于，YARN独立发展，已经六十多个相关组建，庞大的生态，相比一开始三架马车，可以说现在大数据的开源框架非常丰富，企业所选择的大数据，基于开源社区打造的商业级的基础设施解决方案非常公布，可以供公司进行选择，以上是行业技术发展一些趋势的总结。

新时期大数据行业呈现的，我认为这么几个要素和趋势，首先能力阶段更偏向于多元异构数据融合分析能力，前些年数据孤岛比较严重，2017年各个孤岛数据的价值，包括运营商自有数据价值都在降低，更多要处理不同的生态系统或者不同的平台之间的数据模块分析，这个能力非常重要的。第二点就是开放，数据能力留在自有的平台仅仅给自己内部运营使用不够的，必须开放给外部，也希望通过这种开放加速这种生态间的互利共盈，微服务就是我们的平台能力组建部署到客户侧的时候能够支持轻量化的部署，云就是云和大数据时钟无法拆分的，面向多种数据和场景，云和大数据的融合分析能力非常重要的，特别某些场景中，海量数据的传输存储，我们需要依赖于定制的私有云进行支持，特别多媒体语料云。

我们运营商怎么思考自己的定位呢？我觉得运营商的定位一个词来介绍，我觉得就是连接，PPT可能效果有点问题，运营商的核心价值，其实就是两个字，连接，因为运营商的数据相比各个互联网平台的数据，有一个特点就是广度比较广，但是深度不够深，这个广度有助于形成数据地毯的模型，很多行业数据可以扎在地毯上，我们运营商的价值其实地毯里面的线，通过数据连接加速各个平台数据的打通，从而实现1+1大于2，这是运营商把握最大的数据价值。那么连接的数据价值前提下，运营商首先应该建立自己的内部价值，这里有一个小的金字塔，底层是首先将我们自有的数据进行，自有的数据海量级别，我们每天的数据单省的数据量达到万亿级别，清洗以后有价值的数据几百亿条，这是一个省份，所以OSS和MSS还有BSS进行整合，然后进行打通，机遇用户和家庭或者基于车辆或者基于车辆进行打通，通过算法模型实现数据的增益。内部打通我们用一些技术实现和外部数据打通，互联网，物联网，企业自有和线下的数据，打通融合通过算法模型和场景切入来切到各个垂直领域实现落地，目前来讲没有那个公司打造一套非常标准化通用的平台，能够在各个行业落地，垂直行业不同企业对大数据需求不一样，数据源头和数据展现到数据输出的可视化不一样的，这一套体系实现数据的结合和价值供应。

最后简单介绍一下我们灯塔大数据做了什么，灯塔大数据，实际上简单介绍一下可能有的朋友不太了解，我们是中国电信北京研究院自主研发的这么一个大数据平台，我们这个团队主要目标还是打造运营商级别的技术和产品创新，服务于整个电信体系内的产品和解决方案的打造，目前14年和15年，我们平台主要数据服务数据形象为主，有很多数据早期介入大数据市场依赖于我们的数据优势，现在不一样，即便去一些中小规模互联网公司手上很多运营商的数据，这些数据也是合法获取的，我们的数据门槛不复存在，目前更多的转向面向行业的应用型产品解决方案，包含一个4+1的产品体系，1就是Baymax大数据能力开放平台，下面是目前结合我们技术和渠道优势，结合行业需求，我们打造了四个产品和解决方案的方向，一个智慧城市，我们主要做信息智慧城市的综合治理，第二市场研究理我们做泛娱乐的同源数据解决方案，第三O2O领域大数据客流洞察，农业云解决精准扶贫享受国家政策，再一个电信覆盖大部分农业地区，广泛的农业需求，这是4+1的产品体系。

首先是这么一个Baymax平台，其实我觉得总结来讲解决三件事情，我讲的可能比较宏观一点的，首先是数据质量控制，数据质量控制刚刚有嘉宾提到数据治理大数据行业里面份量非常重，价值非常大的环节，进行数据处理之前数据的价值很低的，使用数据的成本也是很高的，所以我们第一件事做好内部的数据质量控制，我们DPI网络大数据90%以上重复无效的，通过何种方式进行良好的剔除这是解决第一件事情，听起来很简单，但是实际上并不是每一家运营商都做的很好，做的好的话有价值的比例降到5%以下，提高20倍存储和计算效率，解决20倍的这么一个计算成本。那么在降低造成比例之后，我们要解决异构数据的问题，指天然异构的数据，也指本身同构，由于采集和前期的处理不到位导致的后天的异构，处理完之后整个数据的质量得到极大的提升，输入所谓的分析平台产生算法模型支撑行业应用。

第二点数据融合增益，电信内部很多数据孤岛，省公司，专业领域，比方我们的宽待、手机，物联网用户和IP用户数据电信体系内，任何一家运营商里面不完全打通的，所以说我们花了很大的精力实现内部多元数据的打通，基于用户也好，业主也好，共有的ID进行分析，大枣行业能力，最终实现标准化的API，在内部方便我们进行模块化的开发，支持各种定制化的项目，虽然我们的项目定制化的，但我们能力应该模块化，这是我们对于平台定位的一些理解。

具体而言，我们平台应该是一个大家司空见惯的这么一个平台价值，顶层我们借助我们的云资源池一些计算组建和存储组建，这两个部分都是共有的，顶上中间这一部分核心能力组建，我们是结合运营商的数据特征，以及我们客户的需求来打造一些比较有特色，有一些技术门槛的，在行业领先的这么一些模块，包括我们的深度标签等等不一一罗列，最顶上就是API，一个部分面向内部开放，另一部分标准化可变现也可以对外开放，标签API对接广告系统，另外一个平台技术指标，全行业的平台能力很强，刚刚也有嘉宾介绍，这里不赘述，想强调目前着力解决普及的，现在步入大数据和AI交叉的领域，很多的场景需要计算关系，而不仅仅计算结果，所以在计算关系的过程当中，目前我们借助CBU和GPU混合的模式，处理十亿甚至百亿级别的这种查询，然后这种训练在查询要支持秒级，训练支持天级，满足训练和实时业务需求。

接下来讲4+1产品体系里面的4，第一智慧城市，我们切入点城市的综合治理解决方案，这个解决方案其实就是基于我们电信和政府的自有数据，还为城市的政府和公共事业管理部门提供城市管理，区域洞察，质量维稳，舆情检测，交通旅游方案，移动数据最有价值，位置数据，我们支持所有服务区内的用户，分钟级的，最高百米级别的定位，这样颗粒度支持类似城市人口，城市人口分布，城市来源分布一些应用，这是分钟级的，可以分析城市的人口分布，也可以用来其他城市用来分析城市的平衡，可以面向维稳也可以面向经济，洞察里面可以三角定位和MR技术可以实现百秒级的定位，具体的人如何分布，有没有出现异常的聚集，我们平台来实现，并且区域内人的画像，包括长期的变化趋势都可以进行分析。这是外来人口的迁徙，用来分析质量维稳和宏观的交通。

第二点就是市场研究，目前聚焦在泛娱乐同源数据解决方案，一个多终端，一个多领域，数据打通起来，线上同源，然后采集线下做先下同源，可以做到不同人不同屏幕前的行为，这个行为行业客户的需求结合，可以提升我们营销评估的能力，这是同源的展开。同源数据解决方案怎么去做呢？实际上我们能够找到固定的人，他在多渠道多屏幕下的行为，首先圈定这批人，分析行为特征，可以KPI数据分析得到，然后分析指数排行，分析媒体渠道投放，广告效果，还有媒体节目商业价值，可以对人进行画像和带有时间轴的画像，我们必须分析客户所关注广告的点击或者观看效果，这个点击和观看效果不仅局限于每次产生CTR转化率，更多的是把所有平台的数据通过KPI汇聚起来，比如百度看了今天会议的广告没有直接电极但是随后进入主页，我们的系统可以检测，用户对广告的感知不直接点击，很多广告没有点击的方式，同源数据的监测可以解决广告监测不全面的问题。

这是同源数据解决，用户洞察和商业指数，一个是对人一个是对物的分析结果，人这一块画像和分布，包括时间。物包括指数和标签，包括一些指数分析，还有我们的一些计算体系，包括排名等等，我们目前跟一些影视投资进行合作。

客流洞察，一个线上一个线下，解决到访时间和停留时长等信息，能够实现线上标签画像，线上线下联动，可以知道今天来了多少人，可以知道每个人具体画像，这个可以看到今天来了多少人，包括通过部署线下的感知设备，我们可以得到每个门店，包括电信的营业厅客流量平均时长，回头客和信息等等，可以得到用户的画像，另外如果对他进行广告营销我们会有一个评估，广告营销有没有再次到店，这是非常直接和客观的评价体系，主要也是面向我们跟线下实体有关的一些商业主体。

最后一个，就是我们的农业云，农业云其实依托云+大数据和物联网，传统畜牧业转变为掌上畜牧业，国家政策助力精准扶贫，西部很多养牛羊的牧民，信息化为零，主要靠经验和靠天，我们的想法，一个是在牛羊身上安装便捷式的物联网设备，基于我们最新的物联网，全球第一个商用的物联网网络，这个网络可以实现网络监测，足不出户，我们配备用户，也就是牧民手机客户端，实现手机导航放牛羊，这些数据到我们的云平台，借助云和大数据进行分析，牧民而言掌上放牧轻松管理，消费者而言所有的数据我们会收集，结合区块链实现轻松溯源，政府管理部门以前不可见线下实体考察得到的信息，大数据的平台可以快捷统一分析，便捷的监督，也可以帮助他们实时的指导牧民进行生产。

那在绿色溯源部分开始结合最新的技术，因为在前面这种掌上放牧的基础之上，所有牛羊的出生、放牧、交易、屠宰信息都已经进入到我们的数据库，那么我们把这些数据全部汇集区块链平台，我们在用户的购买期间可以进行溯源，在商家用户直接认养期间可以进行区块链智能合约，全流程的数据汇集之后对于牲畜的评价体系，不仅仅看好不好长的壮不壮，而是多元化的绿色指数，是伴随终生的，也是区块链当中链的一个数据化之一。

以上就是我对于我们中国电信灯塔大数据的一些行业应用的介绍，我们也希望跟行业的上下游，无论是技术合作伙伴还是渠道合作伙伴进行广大合作，共同打造一个比较能够落地的大数据生态链，谢谢大家。

主持人：感谢上午五位嘉宾精彩的分享，下午我们是1点半开始，下午的主题大数据与智慧投，希望大家想听不要错过时间。