2.1 汇总分类变量的数据
2.1.1 频数分布
对每一类-分类数据(组-数量数据)进行个数的统计。例如统计各饮料的销售数
2.1.2 相对频数分布和百分数频数分布
相对频数分布:各组别频数占总计的比重
百分数频数分布:对相对频数分布取百分数
2.1.3 条形图和饼形图
条形图:将频数分布表图形化,与柱形图比较相似,区别在于由于柱形图是数值型数据的频数分布,图形之间没有间隔。
饼形图:主要是突出各部分的占比,如果各部分占比区别不大,建议使用条形图
2.2 汇总数量变量的数据
2.2.1 频数分布
组数:正常的为2^k > n,其中k为组数,n为数据变量个数,这个适合数据量小的时候,数据量大时,不仅仅会有很多组,而且存在部分组内没数据或者只有少量数据。
如果在制作频数分布表或图时,所涉及的数据类型为数量数据,需要进行组数、组宽、组限的操作,组数为将数据分为几组,组宽为(最大值-最小值)/组数,组限位确定每组上下限,将数据都包含进来。
2.2.2 相对频数分布和百分数频数分布
同2.1.2
2.2.3 打点图
少量数据可以用,数据量多了不好用,现在基本没看到使用打点图进行描述的,
2.2.4 直方图
与条形图区别在于一个用于离散数据、一个用于连续数据
偏度:--左偏值得是图形尾部向左延伸,右偏值得是图形尾部向右延伸
如果使用偏度计算公式得出偏度值,那么正的偏度值为右偏
2.2.5 累积分布
对频数分布进行累积相加的汇总方式,例如可以了解小于某 组的数据总数,累计相对频数分布、累计百分数频数分布同理。
2.2.6 茎叶显示
目前在实际使用中也少用
2.3 用表格方式汇总两个变量的数据
2.3.1 交叉分组表
是一种汇总两个变量数据的方法,横坐标为一个变量,纵坐标为另一个变量。
2.4 用图形显示方法汇总两个变量的数据
2.4.1 散点图和趋势线
散点图:了解两个变量之间的关系
趋势线:显示相关性近似程度的一条直线
线性关系类型
2.4.2 复合条形图和结构条形图
复合条形图
能显示各变量的频数情况,无法清楚表明各变量的占比情况
结构条形图
能更清楚的表示多个变量的频数及占比
2.5 数据可视化:创建有效图形显示的最佳实践