本文将说明如何从一列数值创建并绘制频数分布。
可视化散点并在不使用频数分布的情况下检验正态性
查看数据分布
在创建频数分布之前,先思考一下您是否真的有必要进行这样的操作。
在许多情况下,绘制列散点图就是查看数据分布所需的全部操作。
- 左侧的图是由“频数分布”样本数据制作的散点图(在均值处绘制了线)
- 中间的图是同一数据的箱线图,将低于第2.5百分位数和高于第97.5百分位数的值显示为圆圈;请注意,Prism在此类图中提供了多种定义须的选择
- 右侧的图是小提琴图,它像箱线图一样显示中位数和四分位数,还显示平滑的频数分布,让您了解数据的分布情况
这三个图均由Prism直接从列数据表创建,无需进行分析。
正态性检验
Prism可在列统计分析中进行正态性检验。您无需先创建频数分布,再拟合高斯分布。
操作指南:频数分布
1. 输入数据
选择一个列表格和一幅列散点图。如果您还没有准备好输入自己的数据,可从欢迎对话框中选择列表格样本数据“频数分布”。
2. 选择分析
点击“分析”,然后从列数据的分析列表中选择“频数分布”。
3. 选择分析选项
累积型?
在频数分布中,每个组(bin)包含处于该组定义数值范围内的数值数量。在累积分布中,每个组包含处于该组及以下组内的数值数量。根据定义,最后一组包含数值的总数。下方布局左侧为频数分布图表,右侧为同一数据的累积分布图表,二者均绘制了每组的数值数量。
累积分布的主要优势在于无需确定组距(bin width)。相反,您可以如左侧所示列出精确的累积分布。该数据集有200个数值,因此这个精确的累积分布有200个点,略显不规则。当您选择将累积频数分布以百分比而非分数或精确计数制表时,这些百分比实际上就是百分位数,所得图表有时被称为百分位图(右侧图所示)。
相对频数还是绝对频数?
选择相对频数可确定每个组(bin)中数值的占比(或百分比),而非每个组中数值的实际数量。例如,若45个数值中有15个落入某一组,相对频数为0.33或33%。
若您同时选择累积和相对频数,可使用概率轴绘制分布。以这种方式绘图时,高斯分布呈线性。下方是使用与之前相同数据的示例:在此案例中,数据大致遵循正态分布,因此图表形成一条基本笔直的线。
组距
若您选择累积频数分布,我们建议您选择创建精确分布。在此情况下,您无需选择组距,因为每个数值都会被单独绘制。
要创建普通频数分布,您必须确定组距。若组距过大,只会有少量组,因此您无法很好地了解数值的分布情况。若组距过小,许多组可能仅包含少量数值(或无数值),相邻组的数值数量会随机波动很大,导致您无法了解数据的分布情况。
需要多少组?部分取决于您的目标,部分取决于样本量。若您有大样本量,可设置更多组且仍能得到平滑的频数分布。一个经验法则是,组的数量以样本量的以2为底的对数为目标。Prism在自动生成组距时,将此作为两个目标之一(另一个目标是使组距为整数)。
下方图表展示了同一数据在三种不同组距下的情况。中间的图表展示了数据的分布,左侧的图表细节过少,而右侧的图表细节过多。
组范围
除了决定组距(控制组数),您还可以选择第一个组的中心。这一点很重要。假设您的数据是百分比,范围从0到100。不存在小于0(负数)或大于100的值。假设您希望组距为10,设置10组。若第一个组的中心为0,它将包含-5到5之间的值,但实际上只有0到5之间的值(因为负数不可能存在),因此其有效组距是其他组距的一半。另外请注意,存在11个组包含数据,而非10个。
如果您改为将第一个组的中心设为5,它将包含0到10之间的值,下一个组包含10到20之间的值,依此类推。此时所有组的数值范围相同,所有数据都被包含在组内。因此,若一个组从3.5到4.5,下一个组从4.5到5.5,数值4.5将属于第二个组(4.5到5.5)。
重复项
如果您输入了重复数值,Prism可以将每个重复项放入相应的组中,或者对重复项取平均值,仅将平均值放入组中。所有小到无法放入第一个组的数值将从分析中排除。您也可以输入上限,将较大的数值从分析中排除。
如何绘图
下一节…
绘图提示:频数分布
在频数分布分析对话框的底部,您可以从几种绘图方式中选择一种来绘制结果数据。以下使用“频数分布”样本数据集展示所有这些方式。
频数分布图形
如果您不创建累积分布,Prism会提供以下三种选择:带点的XY图、带尖峰(柱形)的XY图或条形图。
最后两个图看起来非常相似,但右侧的图是条形图,而中间的图是绘制柱形或尖峰而非符号的XY图。中间的图有X值,因此您可以对其拟合高斯分布。右侧的图没有X值(只有类别名称,恰好是数字),因此无法拟合曲线。
直方图(histogram)一词的使用并不统一。我们用该术语表示通常为条形图的频数分布图形。有些人用直方图一词指代任何条形图,即使那些不是绘制频数分布的图形。
累积频数分布图形
如果您选择的累积频数分布式将实际数值数量制成表格(而非分数或百分比),Prism只能创建一种图形:
如果您选择将结果以分数或百分比的形式制成表格,那么Prism还会为您提供(在频数分布的“参数”对话框底部)在概数轴上绘图的选项。如果您的数据来自高斯分布,当累积分布在概数轴上绘图时,会呈现线性。Prism使用标准值标记Y轴,您无法调整这些值。此图与Q-Q图非常相似。
对频数分布拟合高斯分布
为何要对您的数据拟合高斯分布?
您的数据是否遵循高斯分布?回答该问题的一种方法是对原始数据进行正态性检验。另一种方法是检查频数分布或累积频数分布。
拟合高斯分布
Prism可在直方图上叠加频数分布。
请按照以下步骤操作:
1. 在频数分布对话框中,选择创建频数分布(而非累积分布)。同时选择将数据绘制成直方图尖峰的XY图
2. 前往新图形
3. 点击“分析”,并选择“非线性回归”。在模型的第一个选项卡上,选择“高斯方程族”,然后选择“高斯方程”。非线性回归对话框中的所有其他选项可保留默认设置
结果在一定程度上取决于您为组距选择的值,因此我们建议按照如下说明拟合累积分布。
拟合累积高斯分布
Prism可在数据的累积分布图形上叠加累积高斯分布。累积高斯分布呈S形。
请按照以下步骤操作:
1. 在频数分布对话框中,选择创建累积频数分布。同时选择将数据绘制成带点的XY图
2. 前往新图形
3. 点击“分析”,选择“非线性回归”,并从高斯模型中选择其中一个累积高斯模型。Prism针对以百分比、分数或观测数量表示的数据提供了单独的模型。对于最后一种选择,您应将N约束为等于数值数量的恒定值。您可以将所有其他选择保留为默认值
上图为样本数据的累积分布(以百分比表示)拟合到累积高斯曲线上的图形。观测分布用红色圆圈绘制,拟合分布为蓝色曲线。两者叠加,因此难以区分。
在概率轴上绘图
下方是使用概率Y轴绘制的同一图形。操作方法为:双击Y轴以调出“设置轴格式”对话框,在右上角展开刻度选项,选择“概率(0..100%)”。累积高斯分布在概率轴上绘图时呈线性。在图形的右上角,累积分布略高于高斯分布的预测值。当您在概率轴上绘图时,这种差异会被大幅放大。


雷达卡






京公网安备 11010802022788号







