CDA网校:数据科学、人工智能从业者的在线大学。
数据科学(Python/R/Julia)数据分析、机器学习、深度学习
1、Minitab 中包括哪些随机数据和概率分布功能
生成随机数据根据一列数据或从选定的数据分布创建一个或多个随机数据列。在 Minitab 中,选择计算 > 随机数据。
要根据工作表中的数据创建随机样本,请选择来自列的样本。
要根据某特定分布创建随机样本,请指定该分布和相应参数。
指定随机数字生成器为随机数生成器指定一个起点,以便将来生成相同的随机数据集。在 Minitab 中,选择计算 > 设置基数。创建分布的 PDF、CDF 或逆 CDF。计算所选分布的 PDF、CDF 或逆 CDF。在 Minitab 中,选择计算 > 概率分布。
2、访问数据分布的方式
一组数据可按许多不同方式分布或散布。例如,掷骰子所得的数据可以是从 1 到 6 的随机整数值。制造过程所得的数据可以目标值为中心进行分布,也可以包括远离中心值的数据值。
可以通过图形、描述性统计量或者与理论分布的比较来评估数据分布:图形通过图形(如直方图),可以直接深入了解数据集的分布情况。直方图可以帮助您观测:
数据聚类是围绕单个值,还是具有多个峰值或模式。
数据是稀疏散布于宽广的范围,还是位于较小的范围。
数据是偏斜的还是对称的。
描述性统计量用于描述包含数字值的数据的中心趋势(平均值、中位数)和展开(方差、标准差)的描述性统计,这些统计添加了明细层并且可用于与其他数据集进行比较。理论分布最后,一些常见分布可通过正态分布、Weibull 分布和指数分布等进行标识和称呼。例如,正态分布始终为钟形,且沿均值对称分布。真实数据将只能接近于这些完全分布。如果存在紧密拟合,则可认为数据由给定分布进行了合理建模。可使用统计 > 质量工具 > 个体分布标识来确定最适合您数据的分布。
3、连续和离散概率分布
概率分布要么是连续概率分布,要么是离散概率分布,这取决于它们是定义连续变量还是离散变量的概率。
什么是连续分布? 连续分布描述连续随机变量的可能值的概率。连续随机变量是具有一组无限且不可计数的可能值(称为范围)的随机变量。 连续随机变量 (X) 的概率被定义为其 PDF 曲线下的面积。因此,只有值范围才能具有非零的概率。连续随机变量等于某个值的概率始终为零。 重量分布示例 连续正态分布可以描述成年男性的体重分布。例如,可以计算男性体重为 160 到 170 磅之间的概率。
但是,X 精确等于某个值的概率始终为零,因为曲线下单个点的面积为零(没有宽度)。例如,男子体重恰好为 190 磅(至无限精确)的概率为零。您可以计算男性体重超过 190 磅或小于 190 磅的概率,或者介于 189.9 到 190.1 磅之间的概率,但恰好等于 190 磅的概率为零。
什么是离散分布? 离散分布描述离散随机变量的每个值的发生概率。离散随机变量是指具有可计数的值的随机变量,例如非负整数的列表。 在离散概率分布中,离散随机变量的每个可能值可与一个非零概率相关联。因此,离散概率分布通常具有表格形式。 客户投诉数量示例 不同于连续分布,在离散分布中,您可以计算 X 恰好等于某个值的概率。例如,可以使用离散 Poisson 分布来描述一天内的客户投诉数量。假设平均每天的投诉数量为 10,并且您想知道在一天中接收 5、10、15 个客户投诉的概率。
您还可以查看分布图上的离散分布,以了解各范围之间的概率。
什么是概率密度函数 (PDF)? 概率密度函数可帮助确定随机变量值的较高和较低概率的区域。
离散 PDF 的示例 对于离散变量,PDF 将给出给定 x 值的概率值。例如,糖果制造商生产多种颜色的某一类型糖果。生产的糖果中有 30% 为黄色,10% 为橙色,10% 为红色,20% 为绿色,30% 为蓝色。
连续 PDF 的示例 概率密度函数 (PDF) 是一个用于表示连续随机变量的概率分布的等式。例如,为葡萄酒瓶切割软木塞的机器可产生直径不同的软木塞。在下面的软木塞直径条形图中,每个条形表示具有相应直径的软木塞的百分比。
广为熟知的钟形曲线表示正态分布的 PDF。尽管软木塞直径服从正态分布,但其他测量值(如将软木塞从酒瓶中拔出所需的力)可能服从其他分布。例如,对数正态分布的 PDF 有一个长的右尾。例如,对数正态分布的 PDF 有一个长的右尾。
5、使用累积分布函数 (CDF)
什么是累积分布函数 (CDF)?
使用 CDF 评估填充重量的示例
使用 CDF 计算 p 值
什么是累积分布函数 (CDF)? 累积分布函数 (CDF) 计算给定 x 值的累积概率。可使用 CDF 确定取自总体的随机观测值将小于或等于特定值的概率。还可以使用此信息来确定观测值将大于特定值或介于两个值之间的概率。
使用 CDF 评估填充重量的示例 例如,罐装苏打水的填充重量服从正态分布,且均值为 12 盎司,标准差为 0.25 盎司。概率密度函数 (PDF) 描述了填充重量的可能值的可能性。CDF 提供每个 x 值的累积概率。
使用 CDF 可以确定随机选择的罐装苏打水的填充重量小于 11.5 盎司、大于 12.5 盎司或介于 11.5 到 12.5 盎司之间的概率。
使用 CDF 计算 p 值 为了计算 F 检验所对应的 p 值,必须首先计算累积分布函数 (CDF)。p 值为 1 – CDF。 假设您使用下列自由度执行一个多元线性回归分析:DF(回归)= 3;DF(误差)= 25;F 统计量 = 2.44。 计算 F 检验的 p 值
选择计算 > 概率分布 > F。
选择累积概率。
在非中心参数中,输入0。
在分子自由度中,输入3。
在分母自由度中,输入25。
选择输入常量,并输入2.44。
在可选存储中,输入K1。单击确定。 K1 包含累积分布函数。
使用“计算器”从 1 减去 p 值
选择计算 > 计算器。
在将结果存储在变量中中,输入P 值。
在表达式中,输入1-K1。单击确定。
计算的 p 值为 0.08795。使用 0.05 的截止值,您不能断定统计显著性,因为 0.08795 不小于 0.05。注意 该示例适用于 F 分布;但是可针对其他分布使用类似的方法。
6、使用逆累积分布函数 (ICDF)
什么是逆累积分布函数 (ICDF)? 逆累积分布函数给出与特定累积概率关联的值。可使用逆 CDF 确定与特定概率相关联的变量值。
使用 ICDF 确定保修期的示例 例如,一家电器制造商要调查其烤箱内加热管的失效时间。他们想要确定特定百分比的加热管失效的时间,以便设定保修期限。加热管的失效时间服从正态分布,其均值为 1000 小时,标准差为 300 小时。概率密度函数 (PDF) 可帮助确定较高和较低失效概率的范围。逆累积分布函数给出每个累积概率的对应失效时间。 使用逆累积分布函数估计 5% 的加热管失效所需的时间,95% 的加热管开始失效以及全部失效所需的时间,或仅剩 5% 加热管未失效的时间。特定累积概率的逆累积分布函数等于概率密度函数曲线下阴影区域右侧的失效时间。 确定 5% 的加热管失效所需的时间
选择计算 > 概率分布 > 正态。
选择逆累积概率。在均值中,输入1000。在标准差中,输入300。在输入常量中,输入0.05。
单击确定。
5% 的加热管失效所需的时间预计为 0.05 倍的逆累积分布函数或 506.544 小时。
确定 95% 的加热管失效所需的时间
关注“AIU人工智能”公众号,回复“白皮书”获取数据分析、大数据、人工智能行业白皮书及更多精选学习资料!