在之前的一篇博客(统计学和数据科学的区别)中,我讨论了统计推断的意义。在本节中,我们将扩展这些想法
统计推断的目标是对在一定不确定性水平内未观察到的事物做出陈述。推断很困难,因为它是基于样本的,即目标是根据样本了解总体. 总体 是我们想要研究/测试的对象的集合。例如,如果您正在研究某一天的装配线产品质量,那么当天的整个生产就是人口。在现实世界中,可能很难测试每一种产品——因此我们从人群中抽取样本,并根据整个人群的样本推断结果。
从这个意义上说,统计模型提供了总体的抽象表示以及总体的元素如何相互关联。参数是代表人口特征或关联的数字。我们从数据中估计参数的值。参数表示为对目标人群的固定特征或度量的概括描述。 它代表将获得的真实值,就好像我们进行了人口普查(而不是样本)一样。参数的示例包括平均值 (μ)、方差 (σ2)、标准偏差 (σ)、比例 (π)。这些值单独称为统计量。抽样分布是通过从总体中抽取大量样本获得的统计量的概率分布。在抽样中,置信区间提供了一种更连续的不确定性度量。置信区间为未知参数(例如,平均值)提出了一系列合理的值。换句话说,置信区间表示我们相当确定我们的真实值所在的值范围。例如,对于给定的样本组,平均高度为 175 厘米,如果置信区间为 95%,则意味着, 95% 的类似实验将包含真实平均值,但 5% 将不包含样本。
假设检验
了解了抽样和推理之后,现在让我们探索假设检验。假设检验使我们能够对数据的分布或一组结果是否与另一组结果不同作出声明。假设检验允许我们使用样本数据来解释或得出关于总体的结论。在假设检验中,我们评估关于总体的两个相互排斥的陈述,以确定样本数据最能支持哪个陈述。零假设 (H0)是没有变化的陈述,除非有证据表明,否则假定为真。零假设是我们想要反驳的假设。替代假设:(H1 或 Ha)与原假设相反,表示正在测试的声明。我们正在努力收集支持替代假设的证据。概率值 (P-Value)表示基于当前样本或比当前样本更极端的原假设为真的概率。显着性水平 (α)定义了样本与实验的原假设相矛盾的程度的截止 p 值。如果 P 值 < α,则有足够的证据拒绝原假设并接受备择假设。如果 P 值 > α,我们无法拒绝原假设。
中心极限定理
中心极限定理是假设检验的核心。给定一个人口统计数据不可知的样本,我们需要一种方法来推断整个人口的统计数据。例如,如果我们想知道世界上所有狗的平均体重,就不可能对每只狗进行称重并计算平均值。因此,我们使用中心极限定理和置信区间来推断一定范围内的总体平均值。
因此,如果我们取多个样本——比如说 40 只狗的第一个样本,然后计算该样本的平均值。再一次,我们取下一个样本,比如 50 只狗,然后做同样的事情。我们通过获取大量彼此独立的随机样本来重复该过程——然后根据中心极限定理,这些样本的“均值”将给出整个总体的近似均值。此外,均值的直方图将根据中心极限定理表示钟形曲线。中心极限定理很重要,因为这个想法适用于未知分布(例如:二项分布甚至完全随机分布)——这意味着假设检验等技术可以适用于任何分布(不仅仅是正态分布)
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选


雷达卡



京公网安备 11010802022788号







