2017年中国数据分析师行业峰会:数据可视化与商业BI_分会场(七)
主题:数据可视化与商业BI
时间:2017年7月29日下午
地点:中国大饭店
主持人:各位嘉宾、各位参会人员,请大家准备就坐,下午的分会场就要开始了。大家下午好,欢迎大家来到由我们CDAS2017所主办的中国数据分析师行业峰会,想必大家在上午收获颇丰,下午的分会场也不会让大家失望,分会场是以数据可视化与商业BI作为我们的主题,我们将会邀请很多业界大咖分享他们在行业内的心得,我们CDA也做三大运营商、中国银行、招商银行、华为和苏宁,我们都与他们有培训服务项目,如果大家有兴趣的话可以来了解,作为一个大数据的时代,这些庞大的数据其实都非常的枯燥和乏味,有时候我们看到这些庞大的数据无从下手,数据可视化就是数据分析极为关键的一步,因为只有通过数据可视化才能给我们呈现一个直观的业绩,让我们从这些庞大的数据当中看到它的价值,所以这其实就是我们整个下午的主题。我就废话不多说,首先有请第一位嘉宾,让我们有请北京数字冰雹信息技术有限公司副总经理丁冬先生,为我们带来“大数据可视决策的行业应用”。
丁冬:谢谢主持人,非常高兴今天能有机会面对大家,给大家做一个分享,首先简单介绍一下我自己,我来自数字冰雹公司,数字冰雹是一家专门从事数据可视化业务的,提供大数据可视化相关的产品以及相关服务的一家企业,我们公司是06年成立的,聚焦可视化领域有八九年成立的,一开始做的时候名称没有像现在这样大家都知道有数据可视化领域,但是我们那个时候做的基本都是帮一些行业用户做可视化实施,帮他做行业专业的数据,通过这种可视化的方式给大家呈现出来。
所以我们在这里面也积累了一定的经验,也就是说,我今天分享的这些内容实际上可以大家看到我的标题写的叫做“可视化决策”,实际上更多我们落地的都是面向这个行业的用户,也就是说给这个行业如何应用可视化的产品以及相关的服务。
下面就开始切入我今天演讲的主题,首先我们如何感性的认识一下可视化到底是什么,我们简单的分了三点,第一个直观的看可视化是长什么样的;二、它为什么会存在;三、它简单的特征是什么样子的。
我们会看几个视频,这里面就是分几个不同的形态,看一看我们曾经实施过的可视化的系统大概是什么样的。(视频)第一个视频我们做的是全球100年的地震数据的可视化的系统,这里面实际上把我们从互联网上取到的全球地震的基础的数据,带入到我们的系统里面给大家呈现出来。大家可以看到下面显示的日期,也就是说现在看到的是哪一年哪一月,上面可以看到整个地球上有很多红色的点在闪亮,闪亮的每一个点都是一次地震的数据,这个闪亮的点的大小就是象征着这次地震的强度是什么样子的。大家可以看到几乎地球上很多地方每个月都在发生地震,而且其实如果通过这样一个形态看到的话,大家可以很清晰的看到所谓地震带的存在。大家可能在传统学习当中只是从书本上看到有所谓的地震带,比如可能画出来地震带在什么位置,通过这个系统可以看到频繁在这一条线上有地震的发生,这样一个手段就是把咱们以前在书本上看到的一些数据,或者说在客观上存在的一些数据,通过可视化的形式很快速的直接把这个数据的规律就呈现出来了。
大家也可以看到现在时间接近于2008年了,我们可以聚焦一下看一看中国大陆的情况。2008年的5月可以看到四川汶川地震,之后是一次非常强烈的地震之后,持续的在附近的区域还是有余震,其实持续了有两三年的时间,这也就是所谓的大震之后有小震,余震不断,这也是通过可视化的形式,几乎十几秒之内就能够看到了。
大家看下一个视频(视频)。这个视频是我们做的一个全球人造卫星的或者叫做空间飞行器的整体的态势的可视化,这里面我们更偏重于看到一个仿真的地球,在这个仿真的地球外部空间里面有多少卫星,密密麻麻的分布在地球比较近的位置的,就是近地卫星,围绕整个这一圈分布非常有规律的就是所谓的同步卫星,同步卫星都是围绕着赤道面运行的,有一个远距离空间分布的就是远轨卫星,这里可以通过直观手段看到卫星是什么样子的,有什么数量级,我们近距离观察的时候还可以观察到某个空间站的情况,以美国著名的国际空间站IIS做了一个例子,我们通过建模实现了高仿真的空间视线,从刚才那个视角,全球整体的视角到一个空间的视角,在我们平台里是通过统一的可视化的视频实现的,可以把整体的宏观态势和具体某一个设施、某一个车辆等等单体的设施再同一个视频里做这个,大家可以看到,这个空间站上所有的阴影和太阳之间实际上是哪里有光照形成了阴影,现在可以看到中间拉远以后看到的是刚才那个视频,整个地球外部空间所有的飞行器。逐渐的视角拉近会加载模型,这就是IEG技术在可视化的应用了。大家可以看到所有空间站上可动的位置在我们平台里都可以称之为关节,任何一个关节都是可以实时驱动的,大家看到把刚才的回放速度加快以后可以看到太阳板是在旋转的,旋转的规律是它始终是基于一个底层的仿真模型数据在进行它的移动规律,而这个实际上是最简单的仿真模型,仿真的输入是它跟太阳能之间的关系,还要保持太阳能板实时处于阳光来的方向。
刚才除了看到一个整体分布规律,还可以看到具体跟踪细节运动的太阳是什么样的。继续下一个视频。
(视频)最后是一个比较接近于大家日常生活的案例就是我们面向城市应用的平台,这里面可以看到,这里面综合了空间,把我们静态的地标数据、动态的目标点的跟踪数据、整体的数据、还有一些统计数据、右边看的是大的单项指标项,统一呈现。这里可以看到当我开始历史数据跟踪回放的时候可以看到整个地图上出现一些小的点,那实际上是把这个代入了一段时间运行的数据,每辆出租车运行的位置,总体在这个时间里头,所有的运行的车辆总数、行驶距离数、搭载乘客数,这样一个数据可以看到在整个城市空间里面所有数据卫星的态势,又结合整体的数据情况,这是综合数据态势以及应用规律发掘的基本形态,至于怎么应用于行业服务的,会在具体的分布里讲。
下面再讲一讲稍微流一点的东西,刚才讲的是可视化基本的印象是什么样的,这里讲可视化为什么要存在,我们会提到人是可以做主讯息的,这里假设一下人是关在黑屋子里的,只能通过一些手段获得外部的信息传递给我们,为我们提供一个无论是做判断也好还是我们想了解一个事情外面发生了什么也好,都是通过特定的手段的,都是一些感官手段,无非是视觉、听觉、嗅觉、味觉、触觉等等,其实真正获取有效信息的手段更多。一般来讲现在常用的就是视觉和听觉,其他的手段可能也许现在在某些特定领域可以有一些应用比如说触觉,对于盲人来说如果要想阅读就是靠触觉实现的。
对于大多数人来讲听觉和视觉会更多一些用于信息获取,而且不同的手段有不同的策略比如听觉来讲,它获取信息的手段是串起来的,大家听我讲事情是一字一句说出来的,大家无法快速的知道我10分钟之后要讲的是什么,而通过视觉这个手段就可以有串行和并行两种方式,串行也点像数据表格的背景,可以通过数据表格阅读出来数据是怎么发生变化的,分布规律是怎么样子的,但是这个数据是串行,而通过图形化的可视化手段可以把这个数据的形态变成一种并行的数据手段,比如刚才可以看到,整个在全球卫星的分布态势,并不是一个个的让大家看到第一个卫星在什么位置、第二个卫星什么位置,而是同时看到所有卫星的位置,至于它是否有什么分布,我不需要给大家描述一下它的轨道函数是什么样子,而是让大家看到所有的卫星在哪里,大家就可以得出一个结论,卫星大概是什么样的分布形态。
实际上也就是说通过这种图形化的可视化的手段就具备一些天然的优势,也就是说它可以通过这种手段大量的、清晰的表达这样一个数据的传递,而且从当前的应用手段来讲它还是比较成熟的,我们所讲的可视化就是这样的过程,把人难以快速获取的数据信息通过更直观更快速的方式让人获取。
最后看一点这个叫做数据化的简单特征,从三个方面,咱们讲讲数据的可视化会体现出哪些特点来?首先功能来讲,我们做可视化首先要做到艺术呈现要好看,高效传达它是要保证是有用的,不简单给大家传达一个话还要允许用户随着业务的需求交互数据后面的规律。
从使用人员来讲可以看到它面向不同的类型一般来讲在可视化业务里有三种:运维监测人员、分析调查人员、指挥决策人员,他需要从顶层的角度去把握数据之间的整体规律是什么样子的,做出最终的决策。
从应用场景来讲也分成三类,一类是监测指挥,就是咱们一般常见的指挥中心、监测中心,还有一类是分析研判,和使用人群的第二类是有关系的,在特定交互分析的环境实际上是偏业务应用的场景,还有一类是汇报展示,这个更多的是在国内应用的比较多一点,是面向领导,需要呈现一下咱们工作历年来建设的一个成果、信息化的成果、数据建设的成果,通过什么样的手段能够更快速的把整个体系的价值呈现出来,可视化是很便捷的手段。
第二大部分我们来分部分深入的看一看从可视化它的技术都包括哪些方面,包括三块:
渲染是做可视化手段里面最基础的技术实现的能力,首先它可以从这个形态讲分几类,单态图、统计图、分布图、关系图、空间图、时间图组态图,所谓单态图就是对数据直接观察,像城市出车的视频里看到的一样,有几最直接的数据的展现,它有多少辆车跑多少公里了就是单一的状态,统计图就是常见的,无论是柱状图、折线图,实际上是把数据统计之后再看它有什么规律。分布图是一些空间和逻辑相关一下,空间用的比较多,比如刚才看到的卫星、车辆、出租车它的实施位置就是它的情况,这是分布图。关系图是带有逻辑拓扑,相关联这样的东西。空间和时间是我们对数据进行观察最重要的两个维度,会针对这两个维度有一些特定的图形化表达方式,而组态则是一般面向工业、机械或者等等相关的一个装备设备的可视化。而把这些内容综合起来,通过一个可视化的集合的页面来呈现的话一般就叫做数据架构舱。
下面我们看看不同的呈现形式上是什么样子的。现在看到的就是一个关系图,再对比一下,它实际上是我们之前给一个税务系统做的应用,也就是说我们在不同的企业实体之间它的业务往来开发的关系,我们要通过这样一个关系去找他们之间会不会通过虚开发票、通过什么手段、通过非法避税的手段,实际上这是一个应用,它实际上是把不同的实体之间存在的业务逻辑关系,通过点线之间的方式呈现出来。
而如图这个是刚才看到的空间卫星分布态势的,视频里播放过了,这里就不看了。
空间关系的另外一个应用是我们对网络攻击态势常见的,可以看这个视频,这里面讲到的不简单只是一个分布,而是带有一个关系的分布,可以看到我们这里面大量的数据是网络安全检测到的攻击数据,不同的节点之间,从某一个地方向其他地方检测到所有攻击数据,因为做案例的时候为了演示所以切换的比较快,没有针对某一个城市,而是轮着把一个时间,通过这种手段呈现出来。
大家也可以看到我们可以称之为整体数据架构舱的东西是通过一个关系图作为底,又配上其他的形式,包括统计图、单态图做了这样一个综合的应用。
如图这个看到的就是组态,组态的应用刚才提到了是面向工业应用,这样的做的是工业机器人机械臂的可视化的演示,这是一个非常简单的机械结构,但是实际上它实现的是有6个参数可以控制它的运动,我们在平台里做了格式分装的模式,传统的我们见到的格式分装和玛雅外面又增加了格式分装,我们在运动关节上加上了属性这个含义,真正做可视化实质的时候只需要把打包好的带有关节属性的文件加载到我们的系统里面,再把所有的数据源里面需要用来驱动这个装备或者这个机械的参数和这个关节进行绑定,非常快速的就能实施好一个组态可视化的应用。实际上这里面可以看到,我们通过6个关节随着时间做运动的时候,可以看到所有关节的运动情况,而且可以看到每个关节下都显示出来的它的当前运动参数的标签。
这个其实还是刚才组态图的综合应用,这个就不说了,等于刚才说的是一个单体的装备,这里看到的是我们对一个生产线进行监控的时候,实际上就是从宏观到微观逐步做数据驱动的观察,整个生产线运行的状况是什么样子的,具体到刚才某一个装备、某一个工段、某一个设备运行的是什么样子的,整个都可以称之为仿真的三维组态。
刚才讲的是可视化渲染技术,下一个小的关键讲的是可视化分析技术。可视化分析技术是在渲染技术的基础上,我们去结合了一定的分析计算模块,这样去把这种最基本的数据进行一些处理、运算之后,得到我们在稍微深一步希望看到的一些指标、一些规律等等这样的数据。我们这里也分成两种类型,一种是把基本的渲染技术和专业分析计算相结合,应用的是基本的渲染技术的应用,我们需要加载下来的是特定行业里面特定业务它的一些运算模型、规律分析等等这样的东西,比如这里包括了统计计算可视分析、关系挖掘的、推演仿真的等等,后面有相应的案例。
还有一种技术是把渲染技术直接和可视化结合,也就是说在我们可视化手段里面会有一方式是不同于简单的只是数据运算,而是结合了可视化的特点直接获取到了一些规律,这些就是可视分析计算。比如说我们要观察数据或者说观察对象它的分布规律是什么样子的、分布热区、最优中心、栅格聚簇等等,这种未必是很好的手段,可能出来的结果还是人很难理解的手段,但是这样的手段直接结合在可视化手段里面非常快速的能传递出来这里边的规律信息,比如热力图,如果只是把热力图以一个方程或者栅格化分布的手段,通过一个文字文件输出给各位的话,恐怕没有人理解是什么意思,但是如果结合在热力图上把地图呈现出来的话,哪个是红色的、哪个是绿的哪个地方热力最高就一目了然。
简单看一下具体的例子:
1、非常传统的BI商业智能数据架构舱的运用的形态,可以简单的看一看。这里面我们也是应用了一些不同的数据来做,比如说这里面看到的是我们把全国100多个主要城市,把环保部发布出来的AQI指数做了一个可视化的分析,实际上也就是说我可以按照不同的所谓维度,维度可能包括时间维度、空间维度、关注它里边的一些逻辑分布维度,把数据按照不同的维度去观察它有些特定的指标,这里边指标我们可以看到一般在这个里边看到的就是它的AQI指数的数值是什么样子的,还有它的空气质量分级是什么样子的。
我在这里面就可以通过交互的分析,在任何一个当前正在观察的图源里面,选中一个图例一条曲线,按照这条曲线它代表的维度同时筛选其他几个指标示图里的数据就可以快速找到这个数据指标在不同维度之间分布的同步规律是什么样子的。比如说按照时间或者按照某一个空气质量等级看它在城市分布的情况是什么样的、分布主要污染物情况是什么样的、通过这个挖掘它里边的具体的分布规律。实际上比如按照同样都是一个污染等级,但是我可以按照它的首要污染物去察看一下,不同的城市它的污染物的分布特征是什么样子的。比如说北京、华北的这些城市,同样都是重度污染的情况下,华北的城市可能主要的污染物是PM2.5,它的污染源实际上可以看到它分布的主要内容是PM2.5就是细颗粒微尘,来源主要是工业污染或者是汽车尾气产生的污染。单独的讲空气质量指数,如果说我们不按照这里的具体一些分布维度观察的话,未必能得到正确的结论。
这一块是我们讲的视频仿真可视分析,这里面主要是面向军工、战场的应用比较多,这里看到的是我们针对战场态势,装备的作战、运行情况做的一个可视化,所有这些看起来像动画一样的东西实际上都是基于实时的数据,根据底层的仿真模型生成的实时数据的情况来呈现出来的,这里面展现出来的内容就包括所有的装备它当前的飞行姿态、受环境的影响,比如飞机在空中受气流扰动的影响、船舶在海面上受海浪的影响等等这些内容。这是面向特定的应用会有特定的应用场景。
这个跟地震的分布规律很相似,是全球300年飓风的分布规律,把自然发生的数据控制可视化的手段呈现,通过可视化的手段可以直接在半分钟到一分钟原点可以看到一些规律,比如这张图可以说明一些问题,可以看到在某些区域飓风非常密集,什么情况底下看着没有飓风的位置是赤道,这个位置所有的飓风发生的方向都是从东向西的,肯定是从赤道向两极,刚开始发生是从东向西,所以受到飓风影响最大的是西海岸,这个只需要从数据代进去就可以快速的得到这些结论,不需要先要累计一些什么样的基础知识。在面向尤其是管理决策层面做这样应用的时候,很多情况下都是顶层决策者未必是每一个细分领域的非常资深的专家,它如果需要做出决策的话需要参照各个不同的业务数据报上来的情况做这种综合的决策,所以如果想让它从每个系统应用数据里得到这样的决策的时候难度比较大,通过顶层的决平台把最重要的指标最直观的形式呈现出来就可以有效的提高它的决策的效率。
如图这也是可视分析,是栅格化的空间分布,这是之前给连通智慧足迹做的一个基于移动基站的数据进行的数据分析。实际上是把所有的移动基站采集到的终端的数据量通过栅格化、热力图这样的分析,叠加在整个空间的范围内,这里边其实就有很多文章可做了,比如根据时间轴分析人流通行的情况、比如根据基站里采集到的手机终端的分类,比如它到底是iphone还是千元以下的廉价机,根据简单的分类看不同手机的使用者他的活动规律在不同的时间段、不同的空间分布规律是什么样的。
如图这个可视分析是我们之前跟电科院合作帮它做了电力的应用,这里看到的数据没有一个是他们的数据,但是当时是为他们服务的,这里看到的出租车历史运营路线及出租车汇集点的分析,叠加越来越粗的就是聚集的块,像星星一样的聚集的地方是出租车经常停车休息的集中的点,我们做这个会聚分析是为了它建充电桩建设提供支持,哪些是传统车辆最集中停车的地方,在这些地方建设充电桩应该是能够达到比较高的建设效果。
最后一个层面讲可视决策的应用支持。在前两个层级可视化渲染技术、分析技术的基础上再结合上业务决策的需求,我们这个时候主要面向的特定的业务领域了。实际上是把可视化专业的手段应用到相应的不同行业里,两个是一横一纵业务的交叉应用,这里会出现两个概念:1、基础的可视化产品。比如我们做的最基础的产品研发都是基础的可视化产品,但是当我们需要跟客户结合做应用的时候就需要给它附上相应的行业属性,结合上它行业决策特定的一些指标数据这些内容把它做成一个行业应用。比如航天战场、智慧城市这个样子。
从具体的应用来讲,简单讲几个不同的应用领域,这是一个面向政府应用的,给国家审计署做的一个项目执行数据的分析决策系统,就是把它的一个审计数据按照不同的维度展开。去观察按照不同的省份、空间、不同时间段里面按照它的具体的逻辑类别分布的一个执行情况。
如图这个是给空间科研做的暗物质卫星“悟空”做的应用,这实际上是在它的指挥中心立宪监测整个暗物质卫星采集数据的情况、实际运行的情况、后期处理等等的可视化的应用。
如图这是给北京公交做应急调度和指挥平台,是根据整个态势观察车辆情况还有相关因素造成的影响,比如降雨、恶劣天气、积水等等可能对它造成影响,对它的业务决策提供相应的支持。
这一块是面向信息安全还有网络平台管理的应用,是给国家信息安全运营中心做的。
还有面向企业商业的应用类似咱们的业务BI平台这样的应用,这样的应用相对传统一些不展开讲了。
最后几点简单讲一下我们可能在可视化应用实施里边的一些经验。
首先关于数据决策系统和传统业务系统之间的关系和它的差别,实际上传统讲信息化建设更多的是建设的传统的业务系统,它服务于是日常业务的运行工作人员信息录入、存储、相应的数据调取,这里面实际上以采集处理数据为主要工作的,我们现在讲可视化应用的层面一般是讲的数据决策系统,更多是做分析、研判、决策等等为主要用途的一个平台。他们对面向用户有差异、它对这个系统的功能和数据的要求也不一样,在传统的应用中遇到的客户情况,很多情况下客户是不太分得清楚这两种业务系统的边界的,它只是知道有这样的可视化平台有它的业务系统,但是区别或者关系是什么,传统的系统是作为基础的数据源存在,我们需要对这个数据进行一定的提取处理作为我们决策数据的支持,称为决策数据层,最后为可视化系统提供相应的支持和服务。应该这么讲,前30年信息化主要的建设成果应该是集中在业务系统范围的,而未来这几十年大数据建设应用的一个成果应该会更多出现在可视决策层面。
从可视化系统或者说可视化决策的一个应用的定位来讲,它会成为客户决策的一个外脑,也就是说把传统的业务系统作为一个信息的采集的手段,最终通过可视化传递给它的决策中枢,成为他进行决策的一个具体的业务支持的内容。当然我们在这个具体的建设当中还有一个所谓双迭代的模型,也就是说在我们做这个可视化系统的时候未必是要把它所有需要的数据、所有的底层业务系统达到一个完备的状态才能进行这样的数据建设,而是说可以在可视化建设的第一期是结合了现有的数据以及未来所需要的规划数据的所谓半真半假,一半是可以直接把实际数据代进来,另外一半要先上模拟数据要先验证一下模型是否能够为他的决策提供支持,在未来得迭代当中再把原来的数据填充进来。基本我今天的分享就到这里,谢谢大家!
主持人:我们知道数据分析是为了更好的决策,谈到企业,企业的数据也需要决策,下面我们谈谈企业的数据分析决策,有请DataHunter的CEO程凯征先生给我们带来“企业数据可视化从0到1”。
程凯征:大家好我先做个简单的自我介绍,我叫程凯征,我们公司名字叫DataHunter,中文名字叫做数列取,意思很简单就是我们帮大家看数据。我今天讲的是针对企业怎么做数据可视化。
因为数据可视化这个概念非常新,里面的东西协调非常多,我们通常会把数据分析和数据可视化混在一起,我今天讲的东西可能偏数据分析的多一些。上一位演讲嘉宾丁老师讲了很多可视化方向的内容,做的东西都很炫,企业在平时的运营过程中其实会产生大量的业务数据,这些业务数据应该怎么去处理、怎么去分析,我想这才是大家比较关注的点。
我先从一个故事讲起来,当然图上的人不是我,只是作为一个背景,这个故事是什么样的呢?我们就说小张大学毕业之后去了一家公司,为什么去这家大公司呢?因为小张自己对数据非常感兴趣,平时在微博、微信、很多媒体资讯平台上看到了很多数据相关的内容,有很多很多很炫酷的数据信息视图,小张决定毕业之后投身到这个行业里面来,进了一家大公司,这家大公司确实有很多很多的业务数据,因为整个业务运行了大概十几二十年,在全国有几十家的分支机构、代理商,公司内的大大小小的业务系统有十几个,小张进去之后很快就开始上手自己相关的业务工作,他直接的领导给他分配了很多的内容,其中有一项是很简单的工作,叫做做日报,怎么做呢?首先需要从各个系统里面把数据打出来、经销商的业务系统、自己的CIM、销售管理系统、财务系统拿到各种各样的业务数据,把这些数据汇集起来进行简单的整理、梳理,梳理完之后把它形成各种各样的图表。并且把这个图表放到excel或者ppt里面拿去给领导做汇报。
这个过程其实在小张的日常生活中会变越来越多,因为随着他的业务越来越熟练,所以他日常的工作从早上出了公司就开始处理数据,处理完数据之后形成各种各样的图表放到ppt里面,下班之前9点钟之前把所有的数据报告全发出去他手里有各种各样业务部门需要的日报、周报、季报还有各种各样临时性的营销活动的报告。
小张过了一段时间之后就比较困惑了,“我是来做数据相关的工作的,确实现在每天进行的工作也都是数据相关的工作”做很多数据的处理、做很多数据的收集、清洗、整理、形成对应的图表,但是分析的工作在哪里?小张发现他没有分析的工作,所有的都是领导说“你帮我看某一个业务指标、怎么计算一个业务指标”这些都是固定的,这个我们把它称为“表哥表妹”的一天,这个大家不要笑,和你们的工作其实是完全一致的,这实际上也是当前企业内的实际的情况。包括了几种很典型特点:
1、数据采集难;首先很多企业它的业务数据汇总业务系统,但是各个业务系统成熟度不一定完整,所以里面的数据因为版本的变化会有很多数据的格式,有些字段没有、有些字段有,数据情况非常非常复杂,甚至有些企业它统计的数据还都是人工填报的,这种情况系实际上数据采集非常困难要把这些数据搜集起来。
2、数据处理;因为数据的质量有问题,所以需要去做大量的数据的清洗工作,ETL的工作,我们作为“表哥表妹”最常打交道的工具就是excel,我们经常要处理各种各样的业务数据,直到把这些数据补充上来之后才能拿它进行各种各样的分析。
3、重复劳动非常多;为什么要重复劳动呢?刚才讲了小张每一天都要做日报、每周做周报、每月做月报、每季做季报,但是这些报告只是数据表,时间变了其他的东西都没有变,但是他依然要做大量的重复劳动;
4、分析结果分享起来也很困难;刚才讲它可能需要通过邮件的方式跟领导做汇报跟其他的同事做分享,大家讨论的内容也没有办法留存,这种就是分享的过程也会变的麻烦。
总结一下,现在企业内的业务或者说数据的现状大概是什么样的呢?首先对于IT人员来讲,我业务系统有很多,每个业务系统可能还有不同的版本,比如我们之前遇到的客户全国有7-8个生产基地,每个基地都有自己的生产管理系统,每个基地的生产管理系统版本基本上都不一样,所以这是企业内的特点,对于IT人员来讲,IT人员经常有一句话叫“我也很无奈”因为所有的系统每个地方都是不一样的,它要把这些数据全部漏洞汇聚起来其实会变的非常困难,对于公司的“表哥表妹”们要拿到这些数据也很困难,最后生生把“表哥表妹”逼成了程序员。对于前端的业务需求变化来讲,IT人员其实也很困难很痛苦,因为我们人手少根本来不及,所以你先等一等,这是IT人员的现状。
我们先讲业务吧,对于业务人员来讲,大家知道现在市场整个变化其实非常非常快,前端可能会每天都会有新的市场的想法,会有各种各样的营销活动,营销活动的数据拿到之后,我希望立刻看到业务对应的报表或者数据报表,这些只能问后端的数据人员要,数据人员也很痛苦他要应付很多重复的工作,同时还要应付业务部门时刻变化的分析需求,这就是当前企业的现状。
对于业务人员还有一个很痛苦的地方,虽然我每一个业务的分析都让后面的数据部门帮我做了分析,但是我很难把所有的比如几个月以来的数据分析全部串起来,很难对以前的业务做一个汇总之后做接下来几个月的预测,这个对于原来企业来讲是非常非常痛苦的。
我们知道国内的现状看一下国外现在是怎么做的,国外其实目前针对企业数据可视化的领域大致来讲大概是两大类的产品;1、实时的业务看板;实时的业务看板其实主要解决的是我刚才讲的“表哥表妹”最痛苦的事情,他们把每一天重复性的数据统计的工作把它变成实时的业务看板,当业务部门有了一个新的业务需求之后,把它做成这样实时dashboard,所有的数据全部是实时更新的,也就意味着动一份的数据报表只要做一次,以后所有的内容全都是更新的,领导要看实时的看,不用问我要对应的东西。多出来的时间做什么呢?
2、探索式的商业智能;这里面其实会引入一个新的概念叫做探索式分析,国外他们数据的基础比国内要好得多,他们其实在整个企业的数据可视化过程里面做了大量的工作,他们现在走的要比国内快很多,快的地方是什么呢?就是在探索式的商业智能,接下来扩展一下探索式的数据分析。
来讲一讲什么是探索式的数据分析?回到刚才我们说的数据报表上面,企业内的数据需求上面,大部分的数据需求其实都是我们把它称为验证式的分析,也就是说我们有一个想法、有一个idea,说我想要知道我们这一个月的利润是怎么样子的,对比我们这一个月的生产成本是什么样的,可能会把这个需求交给我们的数据分析员,他会针对我们的需求产生很多很多的数据报表,这个东西必须首先有个想法,有了想法之后再通过数据做验证,目前大部分企业的数据需求都是这个类型,这个类型的分析方法会需要一个什么样的基础呢?会对数据的质量有很高的要求,为什么这么讲因为我们需要看到最终的结果,所以如果说数据质量有问题,通过标准的模型可能得到一个错误的结果,所以我们会对数据质量反过来有要求。对数据质量有要求之后,对于分析师来讲就很痛苦了,要做很多很多前期的基础工作,这个我们把它称之为验证式的分析。
那么探索式的分析是什么概念呢?探索式的分析在企业中是很模糊的,我并不清楚从这些数据里面找到什么样的规律、找到什么样的模型、它们之间是什么关系,这个叫做探索式分析,它可以通过数据本身呈现出来的内容通过可视化的方法察看这些数据,我们才能够知道这背后的逻辑和数据之间的关联,这是我们称之为探索式分析,探索式分析通常能够让我们的分析人员走到业务部门之前,可能在业务部门发现这个问题之前就告诉他们“你这个地方出问题了”探索式的分析和验证式的分析我们一般把它称之为企业数据分析的一阴一阳,只有阴阳协调了企业内的数据分析才能走上正规。现在企业大部分的分析其实没有探索式分析是瘸腿的。
从企业分析的固定阶段讲首先有报表,日报、周报、季报各种系统的业务报表也好都属于固定式的报表。第二步有很多验证式的分析,这个验证式分析是业务部门会提出来很多很多的想法,有了这些想法之后我们希望通过企业内的各种业务系统的数据整合验证这个系统。第三阶段会进入到实时的业务看板,数据报表然后验证式的数据分析已经没有办法满足我们的需求,可能管理决策层会希望我们实时的能够看到企业的运营状态,我相信其实现在很多公司已经开始在做这个事情了,包括很多互联网的大公司,举个例子,大家可能都看到过天猫双十一销量的大屏,这个其实就是实时业务看板的一部分。我可以告诉大家在阿里的业务里面实时的业务看板还有很多,其他公司也有很多开始做这方面的事情了。再往后一个阶段才会跨入到探索式分析的阶段,我们国内的企业现在基本上都在向第三和第四阶段迈进的过程中;
探索式分析一般在企业的数据分析里面是一个什么样的位置呢?之前其实国内我相信大家肯定也听说过探索式分析的概念,也有很多其他的企业讲过,但是我觉得那些探索式分析的概念没有把整个探索式分析的精髓说出来。
探索式分析应该在企业内处在什么位置?大家看到图中灰色的部分,这部分叫做传统的企业数据流程,业务场景中采集数据,进行数据的ETL,处理完之后有标准的算法模型产生对应的数据可视化结果或者对应的数据层,这是现有很多企业做的标准的数据流程。在这个流程之上其实缺少一个环节是什么?我有一个问题,算法模型和机器学习这些东西是从哪儿来的?很多分析师可能会讲,这是我们针对公司内的业务去做的一些经验的总结,但是这个东西是后法,实际上是先有想法然后再去做总结。在这个过程中我们遗失掉了数据本身蕴含的信息,所以国外现在提出的探索式分析的概念是在这个位置。也就是说我们从数据最初的地方把数据拿进来,让数据告诉我们它里面含有什么样的信息,我们有了这些信息之后去改进算法、改进模型、改进分析的观测角度和指标,然后再反过来发展业务。
探索式分析也可以产生数据可视化的呈现交给管理决策层探讨这个东西是不是对我们业务有影响、有帮助,这才是探索式分析的价值。这么讲大家不理解,我举一个简单的例子,这个例子可能并不恰当,拿垃圾邮件的处理做一个比喻,当然现在垃圾邮件的处理都有很成熟的BS算法或者其他的算法处理,假设你整个系统刚开始运行的时候,我们其实是不知道哪些东西是垃圾邮件的,这个时候我们通过人工把所有这些邮件,比如抽样抽一千封,人为的从中间挑出来20封,说这个是垃圾邮件,这20封怎么挑出来呢?这个过程我们把它称之为“探索式分析的过程”有了这20封垃圾邮件之后会定自己的算法,找到20封垃圾邮件的规律,他们之间有这样的规律我写一个算法放到我的邮件系统里面。接下来这个邮件系统会进入到整个生产的环境,会产生很多过滤出来的垃圾邮件,也会有很多新进来的邮件,在这个过程中根据我的分析再调整我的算法。比如增加我垃圾邮件识别的关键字,从而改进这个算法之后,整个垃圾邮件的识别率会更高。
这个例子其实就是说明,我们探索式分析在最初的模型建立和模型改进上是非常非常有帮助的,这一环目前在很多企业内都是缺失的。那么探索式分析到底应该怎么做呢?不是无迹可循的,实际上它背后有自己的一套理论基础:
1、所有的数据都会有自己的类型我们把它称之为数据类型;
2、各个数据之间其实都有它自己数据之间的关系;这也是我们要去意识到的。
3、有了数据的类型、数据的关系之后我们要找到合理的可视化的呈现方式;
4、通过合理的可视化呈现的方式做报表,做数据探索式的分析。
具体怎么做呢?第一个数据类型;当然这个数据类型不是我们通常在数据库里表达的数据类型,是我们拿到我们的数据之后会把数据分几个类,怎么分类呢首先第一个我们会有叫做“分类数据”,这种数据通常可以帮助我们对这个数据进行分组,进行排序,通常都是文字类型,这个数据我们在统计学上称之为离散的数据,这个大家理解起来有没有问题?如果是做数据分析的相信是没有问题的。
第二类数据我们称之为“量化数据”,量化数据其实是可以测量的,所有数据都是数字,可以是连续的也可以是离散的,比如年龄、某些测量的温度。
第三类数据比较特殊,我们把它称之为“时间数据”这个就不用解释了,我们平时经历了时间,时间为什么说是比较特殊的数据呢?它其实既可以是连续的又可以是离散的,这个讲的稍微深一些,连续的数据大家知道时间都是每秒钟紧紧衔接的,不能跳过某几秒存在,这种情况下我们把时间称之为是连续的数据。时间为什么又可以是离散的数据呢?因为我们时间有各种不同的统计的维度/统计的单位。我们可以按秒统计、也可以按照分钟统计、可以按照月统计、可以按照季度统计,这样的话时间又可以作为一个离散的数据存在。
地理数据就不用提了,北京、上海作为地理的标识也很有用。通常我们拿到这个数据之后会对它进行这四种类型的分类,这四种类型的分类也是我们做了很多很多数据的工作之后总结出来的。
有了这个数据分类之后我们会找到数据之间的关系,这个关系其实会有很多很多种,这个地方只是提出了7种,我们把它称之为数据关系的7种武器,是哪7种呢?
1、简单对比;我希望能看到上个月和这个月销售额的对比的情况。
2、时间序列;时间序列也很简单,就是在一个时间维度上某些统计的数值是怎样变化的。
3、相关性;相关性其实和偏差性可以一块看,这两者是一正一反的,有些数据其实是相关的,有些数据可能和其他的数据都不相关,这些是两个不同的关系。
4、分级排序、分布情况、整体与局部。这7种关系是我们通常能看到的常用的数据关系。
有了这个数据关系之后我们该做什么事情?刚才讲第一步先看到了数据类型,能够看到数据中的一些关系和关联,第三步就需要进行视觉的处理,当然这个视觉处理不是把它变成多炫酷的内容,而是通过视觉帮我们观察数据,这里面有些总结东西,这些总结的内容挺惭愧的,是老外上世纪80年代总结出来的内容,我们直到今天中国在数据可视化的领域里面,我相信超过50%以上的人都不知道这样的规律。
这是一个什么样的规律呢,老外做了什么样的试验呢?这是一篇论文,他们把对于一些数据用不同的视觉方式去表达出来,反过来让受众去判断他原来想表达的数值到底是什么,从而推断出来这些视觉依据哪些是更容易识别的、哪些是不容易识别的,这里面有几个东西:1、排在最靠前的是刻度定位,这是为什么现在很多统计图表都有坐标轴的原因,没有看到几个统计图表是不带坐标轴的,这是排位第一的。
2、第二个容易识别的内容叫做长度,因为我们人眼的视觉对于长度是很容易定位的。
3、方向;我们到底往哪个方向去,是偏左还是偏右。
4、角度;
面积、体积、曲率、阴影、颜色和饱和度。很遗憾颜色排到了倒数第二,为什么这么讲大家可能没有看过统计数据,在座现场的人大概一百多个,我们里边大概10%的人群对于颜色的识别是有问题的,可能有些色弱、可能有些色盲。这是没有办法回避的问题,也就是说当我们做出一个五色斑斓的内容的时候,很有可能有1/10的人看起来是没有感觉的,所以颜色是排除在靠后的位置。饱和度更不用讲了,很多人的视力不好的时候对于色彩饱和度的接受程度也不一样。
在这个地方还要提一下,在很多我们叫做可视化的效果里面,经常会用一些3D的效果,我不是讲其他友商,我举个最简单的例子,当我们把一个标准的饼图变成一个3D立体的效果,谁能够告诉我这个饼图还能不能判断的更准确一些?当我们把一个垂直的饼图放平之后或者放45度角的时候是完全没有办法判断角度和面积的,所以不要迷信3D图形,我们如果从实用角度看很多时候2D才能真正解决问题,但是3D图形有3D图形的用处,老外也做过一个测试/调研。当图形的绘制者知道他自己的图形将要拿出去做宣传的时候,他一定会首先选用3D图形,因为更好看、更炫、更酷,那个东西才更吸引眼球,因为用户看3D图形的时候为什么会吸引眼球呢?他需要花大量的时间,比2D图形更多的时间去做判断,这是我告诉大家为什么人喜欢炫酷的原因,不是因为它真的好看,而是你要花更多时间理解它的意思。
我们回到企业内部这个东西要让老板做决策,千万不要给老板看各种各样诡异3D图形,老板肯定看很久还不知道你要表达什么意思,2D图形在企业内足够解决问题。
刚才讲了数据的类型、数据的关系、视觉处理的依据。有了视觉处理的依据之后我们需要进行图表的选择,很多分析师做图表选择的时候都会犯一些错误,因为不同的图表所表达的含义是不一样的,有些可以用于进行数据的比较和对比,有些可以用于察看数据的组成,有些可以用于察看数据得分析情况。当然我列的并不全,一定要知道它背后的原因有了这些东西之后刚才讲的这部分内容已经挖的比较深了,有了这些东西之后我们其实才能够对数据做我们所说的探索式分析。刚才讲数据本身其实是有类型的,有之间的关系,我们也知道应该用什么样的图形、应该用什么样的视觉效果展示这些数据,也了这个东西之后我们才能真正看到数据内部的含义和价值,这才是企业的探索式分析的方式和方法。
说了这么多东西之后,我们回过头来看,当前中国的企业需要一款什么样的产品去帮助企业完成企业内的数据分析,数据可视化的工作呢?刚才讲了“表哥表妹”讲了探索式分析,国内的企业应该怎么做呢?我们做了一个总结,当然这个总结也不是没有根源的,我们也参考了很多国外行业的发展规律,看了国外很多的研究报告,其中2017年最新的报告大家可以看到在右上角叫做领导者象限里面总共有三家企业,一家是微软,一家是开普若(音),一家是奎内克(音),我们中国企业是不是一步跨入探索式分析还是要先解决数据看板的问题?这里我们做了总结,新一代的企业数据可视化的产品基本上是被几个能力。1、要有自助式的数据处理能力要让“表哥表妹”数据处理很简单,要让他们很容易的把业务抓进来,这是第一个能力。
2、探索式分析的能力,这个一定不能少,我们真正做数据分析工作,其实就是要做探索式的分析,因为验证式的分析做一次就够了,以后让系统自动完成,后面的东西我们更多应该把精力放在思考和完成上面。
3、数据展示和分享的能力。不能把图形贴到PPT里面拿出去给人做分享,分享的时候数据又变了,又要更新,重新做报告。
4、团队协作沟通能力。因为我们不仅仅是一个数据分析师在工作,我们以后可能有几个数据分析师在做协同,各个业务部门之间的人要对业务部门之间的数据要讨论、要沟通,这些都是我们总结出来的标准的能力。
对于数据这一块能力来讲还会有一个很典型的特点,刚才讲领导者象限这些产品,首先它能够整合企业内的各种各样的业务数据,能够联到各种各样的数据库,支持数据网络,数据来源可以多样化,可以支持异构的数据源。另一方面还要支持互联网数据的导入,举个例子,之前有一个客户做农产品交易的系统,手里有大量的农产品交易的数据,农产品交易的数据本身大家可以做一些分析,他们自己有自己的经验、自己的想法,我们帮他们做了很多验证型的内容,但是这不够。我们帮他们把互联网上的天气拿过来、商务部的数据拿进来,商务部是农产品的进出口数据,有了这些数据之后他们就可以预测天气变化对农产品交易价格有什么样的影响,这是有异构数据源支撑的情况下能够做到的很有意思的事情。
第三个一定要支持这些数据的实时的更新,实时导入,不需要人工介入的,这样才能真正意义上做到前端的实时的业务看板。能够解放广大的“表哥表妹”从重复的劳动中解放出来,能够让系统自动的完成这件事情。
第二要探索式分析能力这个刚才讲了,要有智能的图形推荐,根据视觉的判断、视觉呈现的方式,要给用户推荐这些图形,要在不同图形之间来回切换、来回调整观察这些数据。同时要支持做动态的建模,可以建立数据之间各种动态的关联,能够察看数据互相之间的关系。
除了刚才讲的这两个之外第三个是我们要支持交互式的实时的数据展示,这一块是当前很多国内的BI厂商,国内的产品所不具备的能力,所有的数据最后都要呈现在企业管理层面前,这时候才能真正发挥数据的价值。
分享讨论和沟通刚才讲过了,要支持跨屏要手机、平板、PC上都可以看,支持直接导出PPT可以网上、网页上分析,可以支持讨论和时间戳。
除此之外我们这个产品要符合中国的国情,大家知道国内很多企业还是存在汇报工作的需求的,汇报工作的需求就需要我们炫酷的大屏幕、炫酷的数决可视化的呈现,这个少不了。这个也是需要我们把东西投到电视上、LED大屏上,这些也是新一代数据企业的数据可视化分析和展现的平台所需要具备的能力。
最后做一个广告,刚才讲的这些动能我们都有,大家如果想要了解具体的情况,出门右手边就是我们展台,我们DataHunter现在有自己的数据分析系统、针对企业的数据分析系统、数据大屏和数据的技术服务。谢谢大家!
主持人:正如丁先生提到的数据模型、程先生提到的颜色、饱和度之类的,数据可视化是紧密相连的,我感觉如果把数据可视化做到艺术上的程度是特别好的,下面让我们有请IBM资深软件技术顾问贺华先生给我们带来“数据可视化——无限可能的艺术”。
贺华:大家下午好,今天跟大家分享的主题也是关于可视化的,但是我觉得可能说的内容稍微会大一点,主要会涉及到我们在企业里面怎么样做商业智能、怎么样做分析。
今天我会分三个内容跟大家分享:1、我们为什么要做分析?我们的分析在现在的环境下有什么样的变化?2、介绍一下IBM的解决方案;3、看一看我们做的案例。前面的老师介绍了也非常炫。
首先谈一谈现在我们做的商业智能有什么样的变化,我们刚才说了到大数据时代,什么叫大数据?这里有一张图,因为过两天我们国家的建军节90周年了,我们知不知道宇宙产生到底有多长时间?时间很长了,这张图是一个宇宙产生时间的图谱,大概150亿年,宇宙变化产生的时候可以看到图上1234567,不同的时间它产生了很多的变化,有一种说法说宇宙是大爆炸产生的,大爆炸的时候最开始的时间是很快的时间就产生了很多的粒子,温度不断降低形成了很多的星球,实际上这跟现在谈到的大数据的概念是有契合点的,首先时间不断的推移,有些东西很快的产生,产生不同的粒子。
IBM认为大数据实际上是有些特点的,比如说量级会非常大,其实数据一直在有,但是没有把它放到我们可以管控的数据级里,可以看上去数据量不大,但是现在随着各种搜集的手段越来越多数据量越来越大,各种传感器数据、网上日志的数据都会多。
2、时效性;刚刚也看到很多炫酷的3D的图形、那些数据实时产生,交通领域各个领域都会产生很多数据,很快,有些都是毫秒级,这些数据也是大数据时代需要特别关注的。
3、复杂;传统的数据都是属于结构化的数据为多,但是现在半结构化数据包括一些非结构化的数据也越来越多,我们能不能管控得了。
4、精准;精准通常有些行业不会谈到,但是我们说的精准是什么意思呢?我们数据量太多、数据太复杂的话,到底最终要从这些数据中间拿到一些规律的话,哪些才是我们有用的数据?精准是这个意思。
这4个构成了我们大数据的特点,大数据应该怎么样进行分析呢?实际上对于大数据做分析手段蛮多的,首先要把数据给存下来,如图最下面那一层,数据首先要拉出来,由信息系统能够把它保存下来。第二个是怎么样从已保存的数据能够生成我们想要的或者我们想得到的一些规律,中间有一个计算框架,实际上现在有很多的计算框架,以前对于结构化数据有很多数据库来存储,不一样了,有很多所谓mySQL的数据库还有计算分析平台,包括还有很多实时的数据怎么样计算,这些都是属于计算框架层次要解决的问题,我们在其他的分会场谈到的就是在这两块都会有。
来源:CDA数据分析师峰会:数据可视化与商业BI-分会场


雷达卡



阅读权限+下载200次/日+产品折扣+免费数据库+免费广告+人才库+海量论坛币
阅读权限+下载40次/日+产品折扣+免费数据库+海量论坛币


京公网安备 11010802022788号







