请选择 进入手机版 | 继续访问电脑版
楼主: GraphPad_China
1135 2

建立频率分布 [推广有奖]

  • 0关注
  • 2粉丝

博士生

84%

还不是VIP/贵宾

-

威望
0
论坛币
178 个
通用积分
673.1810
学术水平
2 点
热心指数
2 点
信用等级
0 点
经验
6437 点
帖子
134
精华
0
在线时间
234 小时
注册时间
2020-4-26
最后登录
2024-4-15

GraphPad_China 在职认证  发表于 2020-9-1 17:15:34 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本篇我们来学习下如何根据一列数据创建和绘制频率分布。

01 查看数据分布
首先我们要思考是否真的需建立频率分布?不妨先看看自己的数据分布情况。
因为在很多情况下,要了解数据分布情况,只需要画个列散点图就可以。
  • 左侧图形是根据“频率分布”样本数据绘制的列散点图(以平均值为线);
  • 中间图形是相同数据的盒须图,以圆圈形式示出了低于2.5%和高于97.5%的数值。请注意,Prism为如何定义盒须图提供了几种选择;
  • 右侧图形是一个Prism8特有的小提琴图。该图示出了中值和四分位数,就与盒须图一样,但也显示出了平滑的频率分布,你可以一眼看出数据是如何分布的。


三个图表均可由Prism直接根据列数据表创建,无需手动分析的过程。


图1 通过Prism绘制的三种图形了解数据分布情况

02 方法:Prism创建频率分布


Step 1 输入数据
选择“列”表格和列散点图。如果你尚未准备好输入自己的数据,请选择样本数据集:频率分布数据和直方图。


Step 2 选择分析
点击“分析”,然后从“列”数据分析列表中选择“频率”分布。

图2 “频率分布”选项卡


Step 3 选择分析选项
在频率分布中,每个箱型包含的数值数量在定义该箱型的数值范围之内。在累积分布(Cumulative Distribution)中,每个箱型包含的数值数量位于范围之内 或者 箱型下方。并且根据定义,最后一个箱型是数值总数。下图左侧表示的是频率分布,右侧表示的是相同数据下的累积分布,两者均绘制每个箱型中的数值数量。

图3 频率分布VS累积分布


累积分布的主要优点是你无需决定箱宽。而且,你可以将精确累积分布制成如下所示。数据集有250个数值,因此该精确累积分布有250个点,这使得它有点参差不齐。当你选择使用百分比而非分数制成累积频率分布的表格时,这些百分比实际上是百分位数,结果图有时称为 “百分比图”。

图4 累积分布图

Step 4 相对频率OR绝对频率?
  选择相对频率用于确定每个箱型中数值的分数(或百分比),而非每个箱型中数值的实际数量。例如,如果45个数值中有15个数值落入一个箱型中,则相对频率为0.33或33%。


  如果选择累积频率和相对频率,可以使用概率轴绘制分布图。以此方式绘图时,高斯分布呈线性。



Step 5 箱宽
  如果你选择累积频率分布,建议选择创建精确的分布。精确分布无需选择箱宽,每个数值都会被单独绘出。


  普通的频率分布,就需要确定箱宽。如果箱宽过大,只有几个箱型,就无法很好地展现数据的分布情况(如下图左一)。如果箱宽过小,也无法很好地展现数据的分布情况(如下图右一)。
到底放多少个箱型合适呢?这取决于你的分析目标和样本量。如果你的样本量足够多,即使展示的箱型很多,频率分布也会很平滑。有一条经验法则是:箱型的数量等于样本量以2为底的对数。Prism在自动生成箱宽时,采用的就是这个法则。(同时也会满足默认箱宽为一个整数)
  下图示出了具有三种不同箱宽的相同数据。中间图表示出了正常的数据分布。左侧图表中的细节过少,而右侧图表中的细节则过多。


Step 6 箱型范围
  除决定控制箱型数量的箱宽外,你还可以选择第一个箱型的中心。这可能很重要。假设你的数据是百分比,从0到100。数值不可能小于0(负值)或大于100。假设你想将箱宽设为10,这样就可以做成10个箱型。如果第一个箱型以0为中心,其将包含 - 5至5之间的数值;下一个箱型将包含5至15之间的数值,下一个箱型将包含15至25之间的数值,以此类推。由于不可能出现负值,因此,第一个箱型实际上只包含0 - 5之间的值,因此,其有效箱宽是其他箱宽的一半。此外,还需注意的是,有11个箱型包含数据,而非10个。


  如果你改为第一个箱型以5为中心,它将包含0 - 10之间的值,下一个箱型包含10 - 20之间的值,等等。现在,所有箱型均包含相同数值范围,且所有数据均包含在十个箱型中。边界上的一个点与保持较大数值的箱型对应。因此,如果一个箱型由3.5变为4.5,下一个箱型由4.5变为5.5,则4.5将落在第二个箱型中(由4.5变为5.5)。



Step 7 重复数据
  如果你输入重复值,则Prism可以将每个重复数据放入其相应的箱型中,或者计算重复数据的平均值,且只将平均值放入箱型中。在分析过程中,会忽略所有过小而无法放入第一个箱型的数值。此外,你还可以输入上限,以便从分析中忽略较大的数值。


官方的用户指南有很多图形示例,大家可以多学习下。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:distribution cumulative Prism Step 累积分布

附件: 你需要登录才可以下载或查看附件。没有帐号?我要注册
科研统计绘图工具,助你发现数据
GraphPad_China 在职认证  发表于 2021-3-1 10:09:56 |显示全部楼层 |坛友微信交流群
支持自己

使用道具

lycdds 发表于 2023-7-6 15:05:28 |显示全部楼层 |坛友微信交流群
谢谢分享!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 07:11