国云大数据魔镜免费云分析平台全新上线,欢迎使用!
这里着重介绍一下数据分析部分
1. 数据区
1.1 维度
魔镜将包含定性、分类信息的任何字段都视为维度。例如,包括任何含有文本或日期值的字段。不过在复杂数据关系中,维度的实际定义稍微复杂一些。一个维度就是一个可以视为独立变量的字段。
举例来说,可以针对该维度的每个值来聚合一个度量。例如,您可能要计算每个“省份”的销售总额。在这种情况下,“省份”字段用作维度,因为您要聚合每个省份的销售额。“销售额”的值取决于“国家”,因此,“国家”是独立字段,而“销售额”是依赖字段。同样也可以对视为维度的数字字段计算这种聚合。例如,您可能需要计算向客户提供的每个“利润率”的销售总额。在这种情况下,“利润率”字段用作独立字段,而“销售额”字段是依赖字段,即使这两个字段都是数字字段也是如此。您可通过先将“利润率”度量转换为维度将数字字段用作独立字段。
1.2 度量魔镜将包含数字、定量信息的任何字段视为度量。不过,在关系数据源中,度量的实际定义稍微复杂一些。一个度量就是一个依赖变量形式的字段;也就是说,它的值是一个或多个维度的函数。
这意味着度量是工作表中其他维度的函数。例如,您可能要计算每个“省份”的销售总
额。在这种情况下,“销售额”字段用作度量,因为您要聚合各省份的字段。
1.3 度量转换为维度默认情况下,魔镜将包含数字的所有关系字段视为度量。不过,您可能会决定将其中某些字段作为维度。例如,在魔镜中,默认情况下可能会将包含年龄的字段分类为度量,因为它包含数字数据。不过,如果您要查看每个年龄的人数分布,就可以将“年龄”字段转换为维度。
单击该字段并将其从数据区的度量区域拖放到维度区域中。如图操作。
1.4 维度转换为度量在魔镜中将定性的、分类信息视为维度,如将维度转换为度量,会将离散的维度信息进行计数,可自定义选择计数与计数(不同)。
2. 数据分析2.1 快速进入分析台
点击导航——数据分析,进入数据可视化分析台;
n 点击仪表盘——新建图表,亦可进入数据可视化分析台;
上卷和下钻是导航分层结构的最有用方法之一。例如,如果您在检查各省的销售总额,则可下钻查看某省下各个城市的销售额情况。
在大数据魔镜中有两种方式可以进行创建分层结构。
将一个维度拖入另一个维度上,将自动创建分层结构,弹窗编辑分层结构名称。如图所示,将“省级”拖入“市级”,自动跳出弹窗编辑分层结构名称,点击确认。
1) 通过单击分析台上的维度,右拉创建分层结构,弹窗编辑分层结构,将相关维度拖入相关分层结构中。
将“市级”拖入分层结构中,如图:
举例来说,将“省级”拖入列,将“销售价格”拖入行,选择“饼图”,如图:
生成了各省销售价格的饼图,右击某个省,选择“下钻”,可以查看江苏省个城市的销售价格。
反之,将“市级”拖入列,将销售价格拖入行,生成饼图,右击某个城市选择“上卷”:
就可以查看各省的销售价格,如下图,也可以再次右击选择“下钻”
在大数据时代,混乱的、无结构的、多媒体的海量数据,数据分析的探索功能可以成为一个有效的工具。数据分析的探索功能可以发现变量之间的相关性以及引导出新的假设,发现数据潜在的价值。
例如,我们分析某个区域的房产销售价格,同时可以探索其他新的字段,探索数据更深层次的价值。在大数据魔镜数据分析台中,将“省级”拖入列,将“销售价格”拖入“列”,可以看到各省的销售价格对比图
此时,我们可以探索一下其他新的内容,选择江苏省,右击选择“探索”,可以看到弹出了新的相关字段。
我们可以选择点击“市级”,探索一下江苏省各市的销售价格。
还可以继续探索南京每个时期的销售价格,从而作出有利于市场的决策。
运用参考线是为了让图表更加清晰易读,形成对比。
大数据魔镜的参考线设置包括添加参考线、编辑参考线和移除参考线
1)添加参考线
将“省级”拖入列,将“销售价格”拖入行,生成线图,可以设置一条参考线,可以更清晰的看见各省之间销售价格的差距,点击“销售价格”右拉的“分析”,选择“参考线”
2)编辑参考线,点击确定生成参考线
3)范围设置
范围设置包含“整个表”“每组”“每单元格”
作用于“整个表”
4)线设置
表达式包含合计、最大值、最小值、平均值、中位数和常量
5)移除参考线
右击参考线,出现右击菜单,点击“移除”,则将参考线移除
2.5 趋势线趋势线是用于预测数据趋势的计算线。
大数据魔镜中的趋势线包含显示趋势线、编辑趋势线、移除趋势线。
2.5.1 添加趋势线
将“销售日期”拖入列,将“销售价格”拖入行,生成线图,可以设置一条趋势线,可以更清晰的看见销售价格的走势图,点击“销售价格”右拉的“分析”,选择“趋势线”
2.5.2 编辑趋势线
1)总共有线性、对数、指数、多项式四种模型选择
2)包含因素,对于考虑多个字段的趋势模型,您可以选择要作为趋势线模型中的因素中特定字段。例如,在类别和地区的销售额视图中,您可能需要查看所有类别的总销售额趋势,而不需要每个地区有不同的趋势线,则只需要选中“类别”即可
3)允许按颜色绘制趋势线,当视图中有颜色编码时,可使用此选项来添加一条趋势线。
2.5.3 移除趋势线
右击趋势线,出现右击菜单,点击“移除”,则将趋势线移除
创建计算字段即通过自定义计算形成新的字段,形成的新的字段在维度、度量列表呈现,新的计算字段可进行删除和编辑操作。
在维度或者度量右拉菜单中选择“创建计算字段”
编辑“计算字段”界面
在弹出窗口输入新字段名称,并输入公式表达式及新字段名称,比如“平均销售价格”,输入公式表达式,在函数列双击选择想要的函数,比如“AVG”,再双击字段名列任一字段,比如“销售价格”。
点击确认,保存完成后,在字段列表中会显示出新增的字段。
计算字段公式说明如下。
数字公式
字符串公式
日期公式
聚合公式
参数类似于维度集,可以切换不同的维度,通过创建参数字段,当在“行、列、标记、筛选器”中时,可以快速切换当前参数中维度赋值。
点击维度中右拉菜单,选择点击“创建参数字段”。
弹出【编辑参数】框如图:
将当前展开的业务分组内的维度拖入“编辑参数”框内,框内字段可以进行自由排序。除了分层结构名不能拖入,其他维度都可以。
确认保存后,生成新的参数字段“参数1”。
将参数1拖入“行、列、标记或者筛选器”时,视图区会自动出现字段选择单值下拉列表。参数字段默认选中的维度为排序第一的维度,如下图,就可以随意切换查看各区域、各省和各市的销售价格。
对某一字段进行数据联想,在数据区创建个新的联想字段,参与绘图。
将鼠标移至“数据联想”产生联想的临时对象。
联想的字段可添加至左侧列表,可参与绘图。
虽然魔镜对于每个度量默认是汇总聚合,但对于每个置于功能区的度量,可分配一个不同的聚合。例如,可对“销售额”进行汇总聚合,对“利润”进行最大值聚合,对“折扣”进行平均值聚合。
通过选择“度量”菜单项,可以更改工作表中所有度量的聚合状态。
魔镜可使用“计数”或“计数(不同)”将维度聚合为度量。当聚合维度时,将创建一个新的临时度量列,使维度看起来是一个度量。
注:MicrosoftAccess、MicrosoftExcel和文本文件数据源不支持“计 数(不同)”。如果您连接到这些数据源类型的其中一种,“计数(不同)”聚合将不可用。)
当所有度量取消聚合后,视图中每一行都会出现一个标记。所有度量取消聚合后,无法在视图区操作“只保留”、“排除”数据。
1. 示例——销售分析散点图与取消/聚合
现有超市销售数据一份,先将一个度量放置在“行”功能区上,将另一个度量放置在“列”功能区上,则表示想要比较两个数值。通常在这种情况下,魔镜会选择散点图作为推荐可视化形式。初始视图可能让人失望 — 只有一个标记,显示两个度量的所有值的汇总。
有多种方式可生成这样一个散点图:您可以使用维度添加【描述】;可以向“行”和“列”功能区添加额外的度量或维度,以便在视图中创建多个单标记散点图。当然您也可以取消聚合,在视图中标记每一行数据。
n 将“销售额”度量放在“ 列”功能区上。
n 将“利润”度量放在“ 行”功能区上。
2. 度量自动聚合为汇总,销售额(汇总)在字段名称中显示。描述信息中显示的值是数据源中每个行的销售额和利润总和。
n 维度添加到【描述】,操作如下:
将“类别”维度拖到“标记”区的【颜色】上。这会将数据分隔成三种标记—每个维度成员一个标记—然后使用颜色对标记进行区别标记。
n 将“省份”维度拖到“标记”区的【描述】上。
现在视图中的标记数量等于数据源中不同的省份数乘以类别数。
尽管显示更多标记,度量仍然是聚合的。因此,无论数据源中是只存在一个“省份为江苏、类别为办公用品“的行还是 100个这样的行,结果始终都是一个标记。
此过程可能会按您认为有用的方向形成视图,或者您可能更愿意转向不同的方向,例如,通过向视图中添加维度,或者通过引入趋势线或预测。
1. 向“行”和“列”功能区添加更多字段
n 将“省份”维度拖到“ 列”功能区。
n 将“细分”维度拖到“ 行”功能区。
现在,您有了一个可提供省份和客户细分市场的销售额与利润概况的视图。将光标悬停于视图中的标记上以查看各个细分市场的工具提示数据。
4. 取消聚合
另一种修改您原来的单标记散点图以显示更多标记的方法是取消聚合。
选择“取消聚合”。
现在您看到许多标记 -- 原始数据源中的每一行分别有一个标记。
当您取消聚合时,查看的将不再是数据源中各行值的平均值或总和。相反,视图会为
数据源中的每一行显示一个标记。取消聚合数据是查看数据的整个表面区域的一种方法。
这是了解数据形状和识别离群点的快捷方式。这种情况下,取消聚合将显示,对于数据中的许多行,销售收入和利润之间存在一致的关系。
2.10 日期维度的连续与离散日期类型维度除有离散属性外,还具有连续属性。在可视化展示方面很呈现不同的结果。如果,3日的数据是缺失的,在日期维度连续的状态下,3日是存在于轴上的,但在离散的状态下,3日标题是不存在于轴上的。
离散如下:
连续如下: